AI工具
发布文章-
发布了文章 2个月前
TEN Agent – 开源的实时多模态 AI 代理框架
TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互,支持高性能的实时通信,具备低延迟的音视频交互能力。TEN Agen...
-
发布了文章 2个月前
TANGOFLUX – 英伟达联合新加坡科技设计大学开源的文本到音频生成模型
TANGOFLUX是高效的文本到音频生成模型,是新加坡科技设计大学(SUTD)和NVIDIA共同推出的。模型拥有约5.15亿参数,能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。TANGOFLUX用C...
-
发布了文章 2个月前
TANGO – 东京大学和CyberAgent AI Lab推出声音驱动全身手势视频生成框架
TANGO 是一个由东京大学和 CyberAgent AI Lab 共同推出的开源框架,专注于生成与目标语音同步的全身手势视频。基于分层音频运动嵌入和扩散插值网络,将目标语音音频与参考视频库中的动作完美匹配,确保制作出高保真...
-
发布了文章 2个月前
TANGLED – 上海科大联合华中科大等推出的3D发型生成方法
TANGLED是上海科技大学、Deemos Technology和华中科技大学联合推出的3D发型生成方法,支持从任意风格和视角的图像中生成高质量的3D发丝。TANGLED基于三个核心步骤实现:用多样化的MultiHair数据...
-
发布了文章 2个月前
T2V-baidu09Turbo – 谷歌开源的文本到视频生成模型
T2V-Turbo是一种先进的文本到视频生成模型,由Google、UC Santa Barbara(加利福尼亚大学圣塔芭芭拉分校)、和University of Waterloo(滑铁卢大学)的研究人员共同推出。基于在预训练...
-
发布了文章 2个月前
T2I-baidu09R1 – 港中文联合上海AI Lab推出文生图模型
T2I-R1 是香港中文大学和上海AI Lab联合推出的新型文本生成图像模型。基于引入双层推理机制,语义级链式思维(CoT)和 Token 级 CoT,实现高层次图像规划与低层次像素生成的解耦,显著提升图像生成的质量和鲁棒性...
-
发布了文章 2个月前
T2A-baidu0901-baidu09HD – 海螺AI海外版推出新的语音模型
T2A-01-HD是海螺AI海外版推出新的语音模型。支持语音克隆,仅需10秒音频即可精准克隆声音,保留情感底色。模型具备智能情感系统,能捕捉语音中的情感细微差别,使语音更生动。用户可选择自动情绪检测或手动控制,获得完美表达。...
-
发布了文章 2个月前
SynthLight – 耶鲁大学联合 Adobe 推出的人像重照明技术
SynthLight 是耶鲁大学和 Adobe Research 联合推出的基于扩散模型的人像重照明技术,通过模拟不同光照条件下的合成数据进行训练,能将人像照片重新渲染为具有全新光照效果的图像,比如添加高光、阴影或调整整体光...
-
发布了文章 2个月前
SynthID – DeepMind推出能嵌入数字水印和检测AI生成内容的工具
SynthID 是 DeepMind 推出的技术工具,基于在 AI 生成的内容中嵌入数字水印帮助识别内容。水印对人类是不可感知的,但能被机器检测到,促进信息的信任度。SynthID 适于文本、音乐、图像和视频等多种内容形式,...
-
发布了文章 2个月前
SynthID Text – 谷歌DeepMind推出的AI生成文本水印技术
SynthID Text 是谷歌DeepMind 推出的文本水印技术,用在识别和验证由大型语言模型(LLM)生成的文本。基于细微调整生成过程中的Token概率分数嵌入几乎无法察觉的水印,在不影响文本质量和用户体验的情况下,实...
-
发布了文章 2个月前
SyncAnimation – 南科大等推出的实时音频驱动生成头部运动框架
SyncAnimation是实时端到端的音频驱动框架,用于生成人体姿态和说话头像动画。通过音频信号实时生成与音频同步的上半身姿态和面部表情,包括嘴唇动作,实现高精度和高同步性的动画效果。...
-
发布了文章 2个月前
SynCamMaster – 快手联合浙大、清华等机构推出的多视角视频生成模型
SynCamMaster是浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型,能结合6自由度相机姿势,从任意视点生成开放世界视频。SynCamMaster增强了预训练的文本到视频模型...
-
发布了文章 2个月前
SynCD – Meta和卡内基梅隆大学开源的文生图合成训练数据集
SynCD(Synthetic Customization Dataset)是卡内基梅隆大学和Meta推出的高质量合成训练数据集,用在提升文本到图像模型的定制化能力。SynCD包含多个相同对象在不同光照、背景和姿态下的图像,...
-
发布了文章 2个月前
Symphony Creative Studio – TikTok推出的AI广告创意视频生成工具
Symphony Creative Studio是TikTok推出的AI视频创作工具,帮助广告主和内容创作者简化视频制作流程。Symphony Creative Studio集成视频生成、转换和扩展功能,用户输入信息和素材或...
-
发布了文章 2个月前
SwiftEdit – AI文本引导图像编辑框架,0.23秒内实现高质量的图像编辑
SwiftEdit是由VinAI Research团队推出的文本引导的图像编辑工具,基于创新的一步扩散技术,能在0.23秒内实现快速且高质量的图像编辑。工具的核心优势在于一步反演框架和掩码引导编辑技术,让编辑过程迅速,且能保...






























