LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型,基于自动语音识别(ASR)字幕进行大规模训练。LiveCC像专业解说员一样快速分析视频内容,同步生成自然流畅的语音或文字解说。LiveCC 推出 Live-CC-5M 数据集用在预训练,和 Live-WhisperX-526K 数据集用在高质量的监督微调。LiveCC 设计了 LiveSports-3K 基准测试,用在评估模型的实时视频评论能力。实验表明,LiveCC 在实时视频评论和视频问答任务上表现出色,展现出低延迟和高质量的生成能力。


全部评论
留言在赶来的路上...
发表评论