InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集,旨在提升多模态模型的图文混合推理能力,在数学领域。数据集从 Common Crawl 中提取,经过严格的筛选、清洗和标注,包含 2400 万个网页、8500 万个图像 URL 和 400 亿个文本标记,涵盖了丰富的数学和科学相关内容。InfiMM-WebMath-40B 能显著提升模型在数学推理方面的能力,在 MathVerse 和 We-Math 等基准测试中取得了优异的成绩。

InfiMM-baidu09WebMath-baidu0940B – 字节联合中科院开源的超大规模多模态数据集  第1张
(图片来源网络,侵删)
InfiMM-baidu09WebMath-baidu0940B – 字节联合中科院开源的超大规模多模态数据集  第2张
(图片来源网络,侵删)