MM1.5 – 苹果推出的升级版多模态大模型

baidu09_com 2025-08-29 35 0

MM1.5是苹果公司推出的多模态大型语言模型，旨在增强文本丰富图像理解、视觉指代和定位以及多图像推理能力。模型基于数据为中心的训练方法，在大规模预训练、高分辨率OCR数据持续预训练及优化的视觉指令微调，实现从1B到30B参数规模的高性能。MM1.5包括密集型和MoE变体，展现小规模模型通过精细数据策划和训练策略达到强大性能。MM1.5推出针对视频理解和移动UI理解优化的专门变体MM1.5-Video和MM1.5-UI，基于实证研究提供训练过程和决策的深入见解，为多模态AI技术的未来发展提供指导。