p11阿里
-
发布了文章 2个月前
mPLUG-baidu09DocOwl2 – 阿里推出多页文档理解的多模态大模型,单页仅需324个token
mPLUG-DocOwl 2是由阿里巴巴通义实验室mPLUG团队推出的用于多页文档理解的多模态大型语言模型。在不依赖光学字符识别(OCR)技术的情况下,通过高分辨率文档图像压缩技术,实现对文档图片的高效理解和处理。...
-
发布了文章 2个月前
R1-baidu09Omni – 阿里通义开源的全模态大语言模型
R1-Omni 是阿里通义推出的基于强化学习(RLVR)的全模态大语言模型,专注于情感识别任务。通过结合视觉和音频信息,能清晰地解释情感识别的推理过程,展现出强大的情感理解能力。...
没有更多内容





