SPRIGHT – 专注于空间关系的大型视觉语言数据集

baidu09_com 2025-08-30 35 0

SPRIGHT（SPatially RIGHT）是亚利桑那州立大学、Intel 实验室、Hugging Face 、华盛顿大学等机构联合推出的，专注于空间关系的大型视觉-语言数据集，能解决现有文本到图像（T2I）模型在生成图像时空间一致性不足的问题。数据集对约600万张图像进行重新描述，强调其空间关系，显著提高空间关系在数据集中的比例。通过用SPRIGHT进行微调，T2I模型在生成空间准确的图像方面取得显著的性能提升。SPRIGHT基于详细的评估和分析流程，验证了在捕捉空间关系方面的有效性，为未来的研究提供了丰富的资源和基础。