字节跳动 land of glory
-
发布了文章 2个月前
Valley – 字节跳动推出的多模态大模型
Valley是字节跳动推出的多模态大模型,用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准测试中取得了最佳成绩,并在OpenCompass测试中展现出色性能,尤其是在小于10B参数规模的模...
-
发布了文章 2个月前
PersonaTalk – 字节跳动推出的实现高保真和个性化视觉配音框架
PersonaTalk是字节跳动推出的基于注意力机制的两阶段框架,用在实现高保真度和个性化的视觉配音。PersonaTalk能在合成与目标音频精准唇形同步的视频的同时,保留说话者的独特说话风格和面部细节。...
-
发布了文章 2个月前
Loopy – 字节跳动推出的音频驱动的AI视频生成模型
Loopy是字节跳动推出的音频驱动的AI视频生成模型,用户可以让一张静态照片动起来,照片中的人物根据给定的音频文件进行面部表情和头部动作的同步,生成逼真的动态视频。Loopy基于先进的扩散模型技术,无需额外的空间信号或条件,...
-
发布了文章 2个月前
ImmerseGen – 字节跳动联合浙大推出的3D世界生成框架
ImmerseGen是字节跳动的PICO团队和浙江大学联合推出的创新3D世界生成框架。框架根据用户输入的文字提示,基于Agent引导的资产设计和排列,生成带有alpha纹理的紧凑Agent,创建全景3D世界。...
-
发布了文章 2个月前
FlowGram – 字节跳动开源的可视化工作流搭建引擎
FlowGram是字节跳动开源的基于节点编辑的可视化工作流搭建引擎,帮助开发者快速构建固定布局或自由连线布局的工作流。支持两种布局模式:固定布局适合顺序工作流和决策树,提供层次化结构和灵活的分支、复合节点;自由布局支持节点自...
-
发布了文章 2个月前
Dolphin – 字节跳动开源的文档解析大模型
Dolphin 是字节跳动开源的轻量级、高效的文档解析大模型。基于先解析结构后解析内容的两阶段方法,第一阶段生成文档布局元素序列,第二阶段用元素作为锚点并行解析内容。...
没有更多内容













