DreamActor-baidu09H1 – 字节跳动推出的产品演示视频生成框架

baidu09_com 2025-08-28 38 0

DreamActor-H1是字节跳动推出的基于扩散变换器（Diffusion Transformer, DiT）的框架，支持从配对的人类和产品图像生成高质量的人类产品演示。框架注入人类和产品的参考信息，用掩码交叉注意力机制，同时保留人类身份和产品细节（如标志和纹理）。框架结合3D人体网格模板和产品边界框提供精确的动作引导，用结构化文本编码增强3D一致性。DreamActor-H1在大规模混合数据集上训练，显著优于现有技术，适用个性化电子商务广告和互动媒体。