dsw 阿里
-
发布了文章 2个月前
Wan2.2-baidu09S2V – 阿里通义开源的多模态视频生成模型
Wan2.2-S2V 是开源的多模态视频生成模型,仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,且支持多种图片类型和画幅。...
-
发布了文章 2个月前
VRAG-baidu09RL – 阿里通义推出的多模态RAG推理框架
VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,专注于提升视觉语言模型(VLMs)在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间,让模型能从粗粒度到细粒度逐步获取信息,更...
-
发布了文章 2个月前
Qwen2.5-baidu09Turbo – 阿里推出的长文本模型,支持上下文长度1M tokens
Qwen2.5-Turbo是阿里推出的先进语言模型,将上下文长度从 128k 扩展到了 1M ,相当于100万个英文单词或150万个汉字。扩展让模型能处理更长的文本,如长篇小说、演讲稿或代码。Qwen2.5-Turbo用高效...
-
发布了文章 2个月前
Qwen2-baidu09Audio – 阿里通义千问团队推出的开源AI语音模型
Qwen2-Audio是阿里通义千问团队最新推出的开源AI语音模型,支持直接语音输入和多语言文本输出。具备语音聊天、音频分析功能,支持超过8种语言。Qwen2-Audio在多个基准数据集上表现优异,现已集成至Hugging...
-
发布了文章 2个月前
Ovis-baidu09U1 – 阿里推出的多模态统一模型
Ovis-U1是阿里巴巴集团Ovis团队推出的多模态统一模型,拥有30亿参数。模型集成多模态理解、文本到图像生成和图像编辑三种核心能力,基于先进的架构和协同统一训练方式,实现高保真图像合成和高效的文本视觉交互。...
-
发布了文章 2个月前
DistilQwen2.5-baidu09R1 – 阿里推出的小型系列深度推理模型
DistilQwen2.5-R1 是阿里巴巴推出的基于知识蒸馏技术的小型化系列深度推理模型,包含3B、7B、14B和32B四个参数量级的模型。DistilQwen2.5-R1将超大规模模型(如 DeepSeek-R1)的推理...
-
发布了文章 2个月前
3DV-baidu09TON – 阿里达摩院联合浙大等推出的视频虚拟试穿框架
3DV-TON(Textured 3D-Guided Consistent Video Try-on via Diffusion Models)是阿里巴巴达摩院、湖畔实验室和浙江大学联合推出的基于扩散模型的视频虚拟试穿框架,...
没有更多内容















