AI工具
发布文章-
发布了文章 2个月前
ImageRAG – 基于检索增强生成的图像生成技术
ImageRAG 是基于检索增强生成(Retrieval-Augmented Generation, RAG)的图像生成技术,通过动态检索相关图像来提升文本到图像(T2I)模型生成罕见或未见概念的能力。基于现有的图像条件模型...
-
发布了文章 2个月前
ImagePulse – 魔搭社区开源的图像理解和生成模型数据集
ImagePulse (图律脉动)是魔搭社区推出的开源项目,为下一代图像理解和生成模型提供数据集支持,通过原子化模型的能力并构建原子能力数据集。项目包含多个原子能力数据集,例如“修改、添加、移除”“放大、缩小”“风格迁移”和...
-
发布了文章 2个月前
ImageBind – Meta推出开源多模态AI模型,实现六种多模态数据整合
ImageBind是Meta公司推出的开源多模态AI模型,将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥梁,实现其他模态数据的隐式对齐,无需直接的模态间配对数据。...
-
发布了文章 2个月前
Image-baidu0901 – MiniMax 推出的文本到图像生成模型
Image-01 是 MiniMax 推出的先进文本到图像生成模型,具备卓越的图像生成能力。能将用户输入的文本描述精准转化为高质量图像,支持多种纵横比和高分辨率输出,适合从社交媒体到专业商业项目的广泛应用。...
-
发布了文章 2个月前
ImBD – 复旦联合华南理工等机构推出的通用 AI 内容检测器
ImBD(Imitate Before Detect)是复旦大学、华南理工大学、武汉大学、Fenzi AI等推出的用在检测机器修订文本的方法。首先模仿大型语言模型(LLMs)生成文本的风格,基于风格偏好优化(SPO)调整评分...
-
发布了文章 2个月前
Illustrious – 开源文本到图像生成模型,专注于生成高质量动漫风格图像
Illustrious是开源的文本到图像动漫图像生成模型,是Onoma AI Research推出的。基于优化批量大小、dropout控制、训练图像分辨率和多级标题等关键方法,实现高分辨率、动态色域和高还原能力的图像生成。模...
-
发布了文章 2个月前
Illuminate – 谷歌推出将学术论文转化为音频讨论的AI项目
Illuminate 是一个由谷歌开发的项目,能将学术论文转化为人工智能生成的音频讨论。项目基于谷歌强大的语言模型 Gemini,将论文内容转换成引人入胜的对话,使用户能在运动、开车等碎片时间里轻松学习。...
-
发布了文章 2个月前
Ideogram 3.0 – Ideogram推出的 AI 图像生成模型
Ideogram 3.0 是Ideogram推出的 AI 图像生成模型。Ideogram 3.0在图像生成质量上实现飞跃,具备高度的真实感、出色的文本渲染和强大的语言理解能力,支持生成复杂场景和精细的光影色彩效果。用户基于上...
-
发布了文章 2个月前
Ichigo – 开源的多模态AI语音助手,实时处理语音和文本的交织序列
Ichigo是开源的多模态AI语音助手,采用混合模态模型,能实时处理语音和文本的交织序列。基于将语音直接量化为离散令牌,用统一的变换器架构同时处理语音和文本,实现跨模态的联合推理和生成。...
-
发布了文章 2个月前
IP-baidu09Adapter – 腾讯开源的文本到图像扩散模型适配器
IP-Adapter(Image Prompt Adapter)是一种专门为预训练的文本到图像扩散模型(如Stable Diffusion)设计的适配器,目的是让文生图模型能够利用图像提示来生成图像。该方法是由腾讯AI实验室...
-
发布了文章 2个月前
INFP – 音频驱动的生成逼真面部表情和头部姿态的AI框架
INFP是音频驱动的头部生成框架,专为双人对话交互设计。能自动在对话音频引导下进行角色的转换,无需手动分配角色和角色切换。INFP包括两个阶段:基于动作头部模仿阶段和音频引导动作生成阶段,通过实验和可视化展示,验证了INFP...
-
发布了文章 2个月前
IMAGPose – 南京理工大学推出姿态引导图像生成的统一框架
IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。解决传统方法在姿态引导的人物图像生成中存在的局限性,如无法同时生成多个不同姿态的目标图像、从多视角源图像生成目标图像受限,以及使用冻结的图像编码器...
-
发布了文章 2个月前
IMAGDressing – 华为联合腾讯推出的AI换衣工具
IMAGDressing是华为联合腾讯推出的AI换衣工具,IMAGDressing支持用户通过模块化的方式生成服装,并在虚拟环境中进行试穿。项目页面提供了自动化工作流程、代码审查、问题跟踪等开发工具,以及GitHub Cop...
-
发布了文章 2个月前
ILLUME – 华为诺亚方舟实验室推出的统一多模态大模型
ILLUME是华为诺亚方舟实验室提出的统一多模态大模型,将视觉理解与生成能力融入同一框架中。模型以大型语言模型(LLM)为核心,采用“连续图像输入 + 离散图像输出”的架构,融合了多模态理解与生成的双重能力,深度挖掘了统一框...
-
发布了文章 2个月前
II-baidu09Agent – Intelligent Internet开源的通用AI Agent框架
II-Agent 是开源的Agent框架,通过与大型语言模型(LLM)的交互,简化和提升跨多个领域的工作流程。具备多种核心功能,包括研究与事实核查、内容生成、数据分析与可视化、软件开发、工作流自动化以及问题解决等。...





























