Chinese-LiPS 是智源研究院联合南开大学共同打造的高质量中文多模态数据集,包含100小时的语音、视频和手动转录文本,创新性地融合了唇读视频和演讲者的幻灯片内容。幻灯片由领域专家精心设计,确保了视觉图像的高质量和丰富性。数据集通过结合唇读和幻灯片信息,提升了语音识别性能,实验表明,唇读信息和幻灯片信息分别可提升ASR性能约8%和25%,两者结合可提升约35%。面向中文讲解、科普、教学、知识传播等复杂语境。


Chinese-LiPS 是智源研究院联合南开大学共同打造的高质量中文多模态数据集,包含100小时的语音、视频和手动转录文本,创新性地融合了唇读视频和演讲者的幻灯片内容。幻灯片由领域专家精心设计,确保了视觉图像的高质量和丰富性。数据集通过结合唇读和幻灯片信息,提升了语音识别性能,实验表明,唇读信息和幻灯片信息分别可提升ASR性能约8%和25%,两者结合可提升约35%。面向中文讲解、科普、教学、知识传播等复杂语境。
全部评论
留言在赶来的路上...
发表评论