Chinese-LiPS 是智源研究院联合南开大学共同打造的高质量中文多模态数据集,包含100小时的语音、视频和手动转录文本,创新性地融合了唇读视频和演讲者的幻灯片内容。幻灯片由领域专家精心设计,确保了视觉图像的高质量和丰富性。数据集通过结合唇读和幻灯片信息,提升了语音识别性能,实验表明,唇读信息和幻灯片信息分别可提升ASR性能约8%和25%,两者结合可提升约35%。面向中文讲解、科普、教学、知识传播等复杂语境。

Chinese-baidu09LiPS – 智源研究院联合南大开源的中文多模态语音识别数据集  第1张
(图片来源网络,侵删)
Chinese-baidu09LiPS – 智源研究院联合南大开源的中文多模态语音识别数据集  第2张
(图片来源网络,侵删)