Docmatix 是一个用于文档视觉问答(Document Visual Question Answering,简称 DocVQA)任务设计的大规模数据集。它包含了240万张图像和950万个问题答案对,数据源自130万个PDF文档。Docmatix 数据集的规模是之前数据集的240倍,为训练和优化视觉语言模型(VLM)提供了丰富的资源。

Docmatix – 为文档视觉问答设计的超大开源数据集  第1张
(图片来源网络,侵删)
Docmatix – 为文档视觉问答设计的超大开源数据集  第2张
(图片来源网络,侵删)