AI工具
发布文章-
发布了文章 2个月前
WeaveFox – 蚂蚁推出 AI 前端研发平台,根据设计图直接生成源代码
WeaveFox是蚂蚁团队推出的AI驱动前端智能研发平台,基于蚂蚁自研的百灵多模态大模型,能直接根据设计图生成前端源代码。工具支持多种应用类型,包括控制台、移动端H5、小程序等,且兼容多种技术栈,如React、Vue等。...
-
发布了文章 2个月前
Wear-baidu09Any-baidu09Way – 阿里拍立淘团队推出自由定制的虚拟试穿框架
Wear-Any-Way是阿里巴巴拍立淘团队推出的创新的虚拟试穿框架。通过稀疏对应对齐机制,实现了高保真度且可定制的虚拟试穿效果。用户可以生成逼真的试穿图像,通过简单的点击和拖动操作,精准操控服装的穿着方式,如卷起袖子、调整...
-
发布了文章 2个月前
WeKnora – 腾讯开源的文档理解与语义检索框架
WeKnora 是腾讯开源的基于大语言模型(LLM)的文档理解与语义检索框架。框架基于模块化设计,支持多模态文档解析(如 PDF、Word、图片等),通过 RAG(检索增强生成)机制实现精准问答。...
-
发布了文章 2个月前
WeGen – 中科大联合上海交大等推出的统一多模态生成模型
WeGen 是中国科学技术大学联合上海交通大学、微信团队、中国科学院等机构推出的统一多模态生成模型,基于自然对话实现多样化的视觉生成任务。WeGen结合多模态大语言模型(MLLM)和扩散模型,处理文本到图像生成、条件驱动生成...
-
发布了文章 2个月前
WeClone – 开源AI数字分身一站式解决方案
WeClone是从聊天记录创造数字分身的一站式解决方案。基于聊天记录微调大语言模型(LLM),让模型具有特定的风格,绑定到微信、QQ、Telegram等聊天机器人,实现数字分身。...
-
发布了文章 2个月前
Wav2Lip – 开源的唇形同步工具
Wav2Lip是开源的唇形同步工具,支持用户将音频文件转换成与口型同步的视频,广泛应用于视频编辑和游戏开发等领域。Wav2Lip不仅能够实现实时口型生成,还支持多种语言,适用于不同场景下的需求。...
-
发布了文章 2个月前
WarriorCoder – 微软联合华南理工大学推出的代码生成大模型
WarriorCoder 是华南理工大学计算机科学与工程学院和微软推出的代码生成大语言模型(LLM)。基于模拟专家模型之间的对抗生成高质量训练数据,提升模型性能。与传统方法不同,WarriorCoder 不依赖于现有的专有模...
-
发布了文章 2个月前
Wan2.2-baidu09S2V – 阿里通义开源的多模态视频生成模型
Wan2.2-S2V 是开源的多模态视频生成模型,仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,且支持多种图片类型和画幅。...
-
发布了文章 2个月前
Wan2.1 – 阿里开源的AI视频生成大模型
Wan2.1是阿里云开源的AI视频生成大模型,具备强大的视觉生成能力。Wan2.1支持文生视频和图生视频任务,包含两种尺寸的模型,14B参数的专业版擅长复杂运动生成和物理建模,性能卓越;1.3B参数的极速版能在消费级显卡上运...
-
发布了文章 2个月前
Vui – Fluxions-baidu09AI开源的轻量级语音对话模型
Vui 是 Fluxions-AI 团队开源的轻量级语音对话模型,基于 LLaMA 架构。模型经过 4 万小时对话训练,能模拟真实对话中的语气词、笑声和停顿,提供沉浸式交互体验。...
-
发布了文章 2个月前
VtripGPT – 视旅科技推出首个旅游领域的AI大模型
VtripGPT是视旅科技推出的专注于旅游领域的AI大模型,基于深度合成服务为旅游对话生成提供智能支持。模型基于Transformer架构,结合旅游行业数据和常规知识进行增量预训练,基于人工构建的有监督指令数据及对话数据进行...
-
发布了文章 2个月前
Voyage Multimodal-baidu093 – Voyage AI 推出的多模态嵌入模型
Voyage Multimodal-3 是 Voyage AI 推出的先进的多模态嵌入模型,能处理交错的文本和图像,并从 PDF、幻灯片、表格等截图中捕捉关键视觉特征,无需复杂文档解析。Voyage Multimodal-3...
-
发布了文章 2个月前
Voxtral – Mistral AI开源的语音模型
Voxtral 是 Mistral AI 推出的先进音频模型,基于卓越的语音转录和深度理解能力,推动语音作为自然的人机交互方式。Voxtral提供 24B 和 3B 两种版本,分别适用生产规模和本地部署。Voxtral 支持...
-
发布了文章 2个月前
VoxInstruct – 清华推出的开源语音合成技术,支持多语言和跨语言合成
VoxInstruct 是由清华大学开源的语音合成技术,能根据人类语言指令生成高度符合用户需求的语音。系统采用统一的多语言编解码器语言建模框架,将传统的文本到语音任务扩展到更广泛的人类指令到语音任务。...
-
发布了文章 2个月前
Voost – 创新的双向虚拟试穿和试脱AI模型
Voost 是NXN实验室推出创新的虚拟试穿和试脱模型,基于统一且可扩展的扩散 Transformer(DiT)框架开发。能同时处理虚拟试穿(try-on)和试脱(try-off)任务,生成高质量的图像结果。通过联合学习这两...





























