LongDocURL是中国科学院自动化研究所和阿里巴巴淘宝天猫集团联合发布的多模态长文档理解基准数据集。专注于评估模型在处理长文档、复杂元素和多样化任务中的理解、推理和定位能力。数据集包含2,325个问答对,覆盖超过33,000页文档,涉及20个子任务,旨在推动文档理解技术的发展。

LongDocURL – 中科院联合淘天集团推出的多模态长文档理解基准数据集  第1张
(图片来源网络,侵删)
LongDocURL – 中科院联合淘天集团推出的多模态长文档理解基准数据集  第2张
(图片来源网络,侵删)