OmniCorpus是一个大规模多模态数据集,包含86亿张图像和16960亿个文本标记,支持中英双语。由上海人工智能实验室联合多所知名高校及研究机构共同构建。OmniCorpus通过整合来自网站和视频平台的文本和视觉内容,提供了丰富的数据多样性。与现有数据集相比,OmniCorpus在规模和质量上都有显著提升,推动多模态大语言模型的研究和应用。数据集在GitHub上公开可用,适用于多种机器学习任务。


OmniCorpus是一个大规模多模态数据集,包含86亿张图像和16960亿个文本标记,支持中英双语。由上海人工智能实验室联合多所知名高校及研究机构共同构建。OmniCorpus通过整合来自网站和视频平台的文本和视觉内容,提供了丰富的数据多样性。与现有数据集相比,OmniCorpus在规模和质量上都有显著提升,推动多模态大语言模型的研究和应用。数据集在GitHub上公开可用,适用于多种机器学习任务。
全部评论
留言在赶来的路上...
发表评论