AI工具
发布文章-
发布了文章 2个月前
ThinkSound – 阿里通义推出的首个CoT音频生成模型
ThinkSound是阿里通义语音团队推出的首个CoT(链式思考)音频生成模型,用在视频配音,为每一帧画面生成专属匹配音效。模型引入CoT推理,解决传统技术难以捕捉画面动态细节和空间关系的问题,让AI像专业音效师一样逐步思考...
-
发布了文章 2个月前
ThinkChain – 开源AI框架,工具结果实时反馈到AI思考过程中
ThinkChain是开源框架,能提升AI工具的智能交互能力。框架将工具的执行结果实时反馈到AI(如 Claude)的思考过程中,形成动态的反馈循环,让AI能调用工具,根据工具结果进行推理和决策。...
-
发布了文章 2个月前
TheoremExplainAgent – AI教学双智能体,数理化定理自动转动画
TheoremExplainAgent(TEA)是滑铁卢大学、Votee AI等机构开源的多模态代理系统,基于生成长篇动画视频帮助人们更好地理解数学和科学定理。TheoremExplainAgent支持生成超过5分钟的教育视...
-
发布了文章 2个月前
The Matrix – 阿里联合港大等多所机构推出的AI基础世界模拟器
The Matrix是与电影同名的、首个AI基础世界模拟器,是全华人团队推出的(作者分别来自阿里巴巴、香港大学、滑铁卢大学和加拿大AI研究机构Vector Insititute)。The Matrix能生成无限长、高保真72...
-
发布了文章 2个月前
The Language of Motion – 斯坦福李飞飞团队推出的统一多模态语言模型
The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型,能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动作数据,生成对应的目标模态,对于创建自然交流的虚拟角色至关重要。...
-
发布了文章 2个月前
The AI Scientist-baidu09v2 – 通用端到端 AI 系统,自动探索科学假设生成论文
The AI Scientist-v2 是 Sakana AI 、不列颠哥伦比亚大学、Vector研究所等机构联合推出的完全自动生成科学发现的端到端人工智能系统,支持自主地提出科学假设、设计和执行实验、分析数据、生成可视化结...
-
发布了文章 2个月前
Textoon – 阿里通义实验室推出的文本提示生成2D卡通人物工具
Textoon 是阿里巴巴集团通义实验室推出的创新项目,首个能根据文本提示生成Live2D格式2D卡通角色的方法。基于先进的语言和视觉模型,能在一分钟内生成多样化且可交互的2D角色。...
-
发布了文章 2个月前
TextHarmony – 字节联合华东师范推出的多模态生成模型
TextHarmony是华东师范大学和字节跳动共同推出的多模态生成模型,擅长理解和生成视觉文本。模型基于Slide-LoRA技术,动态聚合特定于模态和模态无关的LoRA专家,部分解耦多模态生成空间,在单一模型实例中协调视觉和...
-
发布了文章 2个月前
TextDiffuser-baidu092 – 微软等推出的AI图像文本渲染融合框架
Text-Diffuser 2是由来自微软研究院、香港科技大学和中山大学的研究人员最新推出的一个基于扩散模型的文本渲染方法,旨在解决图像扩散模型生成文字时在灵活性、自动化、布局预测能力和风格多样性方面的局限性,以提高生成图像...
-
发布了文章 2个月前
Text to Bark – ElevenLabs 推出的 AI“狗语”文本转语音模型
Text to Bark 是 ElevenLabs 推出的全球首个AI“狗语”文本转语音模型。用户输入文字选择犬种,模型能生成高度逼真的狗吠声,95%的狗无法分辨其与真实吠声。模型基于开源犬类语言学研究开发,支持个性化选择品...
-
发布了文章 2个月前
Text Behind Image – 开源在线图像处理工具,在图中角色背后添加文字
Text Behind Image是开源的在线工具,支持用户在图片中的角色背后添加文字,创建具有视觉冲击力的海报和社交媒体图像。用户在图像中的主体背后添加自定义文本,并提供文字、字体、颜色、位置、粗细、不透明度、旋转和重复等...
-
发布了文章 2个月前
TesserAct – AI 4D具身世界模型,能预测3D场景的动态演变
TesserAct 是创新的 4D 具身世界模型,能预测 3D 场景随时间的动态演变,响应具身代理的动作。通过训练 RGB-DN(RGB、深度和法线)视频数据来学习,超越了传统的 2D 模型,能将详细的形状、配置和时间变化纳...
-
发布了文章 2个月前
TeleChat2-baidu09115B – 中国电信AI研究院推出的开源星辰语义大模型
TeleChat2-115B是由中国电信人工智能研究院(TeleAI)研发的大型语言模型,属于星辰语义大模型系列。基于国产算力进行训练,采用10万亿Tokens的中英文高质量语料。与前代模型相比,TeleChat2-115B...
-
发布了文章 2个月前
TeleAI-baidu09t1-baidu09preview – 中国电信推出的复杂推理大模型
TeleAI-t1-preview是中国电信人工智能研究院发布的“复杂推理大模型”,具备强大的逻辑推理与数学推导能力。通过强化学习训练方法,引入探索、反思等思考范式,提升了复杂问题的解答精度。...
-
发布了文章 2个月前
TeleAI 视频生成大模型 – 中国电信AI研究院推出的视频生成模型
TeleAI 视频生成大模型是中国电信AI研究院推出的视频生成模型,基于两阶段生成框架:先根据文本描述创建分镜头草图,再基于草图生成视频。TeleAI 视频生成大模型能确保视频中主体外观的一致性,精确控制动作和外观,实现复杂...






























