字节联动网络科技
-
发布了文章 2个月前
X-baidu09Dyna – 字节联合斯坦福等高校推出的动画生成框架
X-Dyna 是基于扩散模型的动画生成框架,基于驱动视频中的面部表情和身体动作,将单张人类图像动画化,生成具有真实感和环境感知能力的动态效果。核心是 Dynamics-Adapter 模块,能将参考图像的外观信息有效地整合到...
-
发布了文章 2个月前
VideoWorld – 字节联合交大等机构推出的自回归视频生成模型
VideoWorld是北京交通大学、中国科学技术大学和字节跳动合作开展的一项研究项目,探索深度生成模型是否能仅通过未标注的视频数据学习复杂的知识,包括规则、推理和规划能力。...
-
发布了文章 2个月前
UniTok – 字节联合港大、华中科技推出的统一视觉分词器
UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器,能同时支持视觉生成和理解任务。基于多码本量化技术,将视觉特征分割成多个小块,每块用独立的子码本进行量化,极大地扩展离散分词的表示能力,解决传统分词器在细...
-
发布了文章 2个月前
TextHarmony – 字节联合华东师范推出的多模态生成模型
TextHarmony是华东师范大学和字节跳动共同推出的多模态生成模型,擅长理解和生成视觉文本。模型基于Slide-LoRA技术,动态聚合特定于模态和模态无关的LoRA专家,部分解耦多模态生成空间,在单一模型实例中协调视觉和...
-
发布了文章 2个月前
PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架
PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架,基于少量样本学习艺术家的独特风格,实现照片涂鸦(photo doodling)。PhotoDoodl...
-
发布了文章 2个月前
MimicTalk – 字节联合浙大推出的开源3D数字人头项目
MimicTalk是浙江大学和字节跳动共同研发推出的,基于NeRF(神经辐射场)技术,能在极短的时间内,仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。MimicTalk提高了训练效率,基于高效的微调策略和具有上下文...
-
发布了文章 2个月前
MMaDA – 字节联合普林斯顿大学等推出的多模态扩散模型
MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和文本到图像生成等多个领域实现卓越...
-
发布了文章 2个月前
LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型
LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型,基于自动语音识别(ASR)字幕进行大规模训练。LiveCC像专业解说员一样快速分析视频内容,同步生成自然流畅的语音或文字解说。...
没有更多内容
















