AI工具
发布文章-
发布了文章 2个月前
LLaMA-baidu09Mesh – 清华联合英伟达推出的自然语言生成复杂的3D模型项目
LLaMA-Mesh是清华大学和NVIDIA共同推出的项目,基于将3D网格生成与大型语言模型(LLMs)结合,实现用文本提示直接生成3D模型的功能。项目用OBJ文件格式将3D网格的顶点坐标和面定义转换为文本,基于顶点量化技术...
-
发布了文章 2个月前
LLaDA-baidu09V – 人大高瓴AI联合蚂蚁推出的多模态大模型
LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型(MLLM),基于纯扩散模型架构,专注于视觉指令微调。模型在LLaDA的基础上,引入视觉编码器和MLP连接器,将视觉特征映射到语言嵌入空间,实现有效...
-
发布了文章 2个月前
LLaDA – 人大高瓴AI联合蚂蚁推出的扩散大语言模型
LLaDA(Large Language Diffusion with mAsking)是中国人民大学高瓴AI学院李崇轩、文继荣教授团队和蚂蚁集团共同推出的新型大型语言模型,基于扩散模型框架而非传统的自回归模型(ARM)。L...
-
发布了文章 2个月前
LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型
LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器,基于与大型语言模型(LLM)协同训练提升目标检测性能。LLMDet能收集包含图像、定位标签和详细图像级描述的数据集...
-
发布了文章 2个月前
LLM2LLM – 通过迭代数据增强提升大语言模型的技术
LLM2LLM是创新的迭代数据增强策略,提升大型语言模型(LLM)在数据稀缺情况下的性能。方法通过基于一个强大的教师模型来生成合成数据,增强学生模型的训练数据集。具体来说,学生模型首先在有限的种子数据上进行微调,然后教师模型...
-
发布了文章 2个月前
LLIA – 美团推出的音频驱动肖像视频生成框架
LLIA(Low-Latency Interactive Avatars)是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成,支持实现低延迟、高保真度的实时交互。...
-
发布了文章 2个月前
LIMO – 上海交大推出的高效推理方法,仅需817条训练样本
LIMO(Less Is More for Reasoning)是上海交通大学研究团队提出的高效推理方法,通过极少量高质量的训练样本激活大语言模型(LLM)的复杂推理能力。核心假设是在预训练阶段已经具备丰富知识基础的模型中,...
-
发布了文章 2个月前
LIGER – Meta AI 等机构推出的混合检索模型
LIGER是Meta AI等机构推出的混合检索模型,结合生成式检索和密集检索的优点。LIGER用生成式检索模块生成有限的候选项目集,基于密集检索对候选项目进行排序和优化,保留生成式检索在存储和推理效率上的优势,提高了推荐性能...
-
发布了文章 2个月前
LHM – 阿里通义开源的单图生成可动画3D人体模型
LHM(Large Animatable Human Reconstruction Model)是阿里巴巴通义实验室推出的从单张图像重建可动画化3D人体模型。基于多模态Transformer架构,融合3D几何特征和2D图像特...
-
发布了文章 2个月前
LEOPARD – 腾讯AI Lab西雅图实验室推出的视觉语言模型
LEOPARD是腾讯AI Lab西雅图实验室推出的视觉语言模型,专为理解和处理含有大量文本的多图像任务设计。LEOPARD基于两个主要技术创新:一是策划约一百万条专门针对文本丰富、多图像场景的高质量多模态指令调优数据集;二是...
-
发布了文章 2个月前
LDGen – 理想汽车推出的多语言文本到图像生成技术
LDGen是创新的文本到图像合成技术,通过结合大型语言模型(LLMs)与扩散模型,提升文本描述到图像生成的质量和语义一致性。通过分层标题优化和人类指令技术,提取文本中的精确语义信息,基于轻量级适配器实现LLMs与图像特征的高...
-
发布了文章 2个月前
白度白读百度baidu09LCVD – 川大推出的光照可控肖像动画生成框架
LCVD(Lighting Controllable Video Diffusion Model)是四川大学推出的高保真、白度白读百度baidu09光照可控的肖像动画生成框架。LCVD基于分离肖像的内在特征(如身份和外观)与...
-
发布了文章 2个月前
LBM – AI图像转换框架,实现可控阴影生成
LBM(Latent Bridge Matching)是Jasper Research团队推出的新型图像到图像转换框架,基于在潜在空间中构建桥匹配实现快速高效的图像转换。LBM仅需单步推理完成任务,适用多种图像转换场景,如目...
-
发布了文章 2个月前
LATTE3D – 英伟达推出的文本快速生成3D对象的模型
LATTE3D是由英伟达的研究人员推出的一个文本生成3D对象的模型,能够从文本提示描述快速生成高质量的3D内容(仅需400毫秒)。该技术的核心在于采用了一种称为“摊销优化(amortized)”的方法,即在大量文本提示上同时...
-
发布了文章 2个月前
LAM – 微软推出的大型行动模型,能自主操作Windows程序
LAM是微软推出的名为“Large Action Model”(简称 LAM)的新人工智能模型。与传统语言模型不同,LAM能够自主操作Windows程序,实现真实任务执行。 能理解文本,将用户请求转化为具体行动,如启动程序或...



























