模态功能
-
发布了文章 1个月前
从 YC W24 看硅谷 AI 创业新趋势:AI Agent、垂直领域、多模态和 AI 安全
从 YC W24 看硅谷 AI 创业新趋势:AI Agent、垂直领域、多模态和 AI 安全...
-
发布了文章 2个月前
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力? 2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)...
-
发布了文章 2个月前
多模态内容生成的机会,为什么属于中国公司?
多模态内容生成的机会,为什么属于中国公司? 2025 年多模态技术快速发展,中国创业团队在内容生成领域正在形成领先优势。与美国在大语言模型领域的领先不同,中国企业在视频生成、3D 创作等多模态细分领域已跻身全球第一梯队...
-
发布了文章 2个月前
Twelve Labs- 多模态重塑视频内容检索
Twelve Labs: 多模态重塑视频内容检索 Cisco 曾在 2018 年做过测算,全球已经有超过 75% 的数据是视频内容,互联网视频数据流量超过 50%。视频搜索市场存量很大,目前主要被 YouTube、Ti...
-
发布了文章 2个月前
Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转
Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转 在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。现有方法如扩散模型(Diffusion Models)和流匹配(Flow...
-
发布了文章 2个月前
MetaMorph – 统一多模态理解与生成大模型,基于VPiT 预测多模态 token
MetaMorph是多模态大模型(MLLM),通过指令微调(Instruction Tuning)实现视觉理解和生成。它提出了一种名为Visual-Predictive Instruction Tuning(VPiT)的方法...
没有更多内容























