OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架

baidu09_com 2025-08-30 39 0

OmniHuman是字节跳动推出的端到端多模态条件化人类框架，能基于单张人类图像和运动信号（如音频、视频或两者的组合）生成逼真的人类视频。OmniHuman基于多模态运动条件混合训练策略，克服以往方法因高质量数据稀缺而导致的性能瓶颈，支持任意宽高比的图像输入（包括肖像、半身和全身图像），能适应多种场景。OmniHuman 在歌唱、对话、手势处理等方面表现出色，支持多种视觉和音频风格，同时兼容音频、视频及组合驱动，生成高质量的视频内容。