AudioGen-Omni是快手推出的多模态音频生成框架,框架能基于视频、文本等输入生成高质量的音频、语音和歌曲。框架通过统一的歌词-文本编码器和相位对齐各向异性位置注入(PAAPI)技术,实现精准的视听对齐和跨模态同步。框架支持多语言输入,推理速度快,1.91秒能生成8秒音频,且在多种音频生成任务上表现出色,适用视频配音、语音合成和歌曲创作等场景。

AudioGen-baidu09Omni – 快手推出的多模态音频生成框架  第1张
(图片来源网络,侵删)
AudioGen-baidu09Omni – 快手推出的多模态音频生成框架  第2张
(图片来源网络,侵删)