AI工具
发布文章-
发布了文章 2个月前
Light-baidu09A-baidu09Video – 上海AI Lab联合交大等高校推出的视频重照明方法
Light-A-Video 是上海交通大学、中国科学技术大学、香港中文大学、香港科技大学、斯坦福大学及上海AI实验室的共同推出的无需训练的视频重照明方法,基于渐进式光照融合技术实现高质量、时间上一致的视频光照控制。...
-
发布了文章 2个月前
LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术
LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。LeviTor用高质量的视频对象分割数据集进行训练,有效捕捉复杂...
-
发布了文章 2个月前
Lepton Search – 开源的对话式AI搜索引擎项目
Lepton Search是由原阿里巴巴技术副总裁和AI科学家贾扬清创办的Lepton AI应用构建平台开源的一个对话式AI搜素引擎,该项目基于调用Lepton平台上的云端人工智能模型和Bing搜索的API密钥,仅用不到 5...
-
发布了文章 2个月前
LegoGPT – 卡内基梅隆大学推出的乐高积木设计模型
LegoGPT 是卡内基梅隆大学推出的乐高积木设计模型,支持基于文本提示生成物理稳定且能构建的乐高积木模型。LegoGPT 基于自回归语言模型和大规模乐高设计数据集进行训练,根据用户输入的文本描述逐步生成乐高结构,确保设计的...
-
发布了文章 2个月前
Leffa – Meta 开源的图像生成框架,精确控制人物的外观和姿势
Leffa(Learning Flow Fields in Attention)是 Meta AI推出的用在可控人物图像生成框架,基于在注意力机制中引入流场学习,精确控制人物的外观和姿势。Leffa基于正则化损失函数,指导模...
-
发布了文章 2个月前
LeVo – 腾讯AI实验室推出的AI唱歌模型
LeVo是腾讯AI实验室推出的AI唱歌模型,具备强大的音色克隆能力,仅需3秒音频即可精准复制目标音色,包括音调、情感和韵律,无需大量训练数据。LeVo支持分轨生成,可分别生成人声和伴奏音轨,为后期编辑提供便利。...
-
发布了文章 2个月前
LeRobot – HuggingFace推出的开源AI聊天机器人项目
LeRobot是由HuggingFace推出的开源AI聊天机器人项目,由前特斯拉研究员Remi Cadene领导开发。LeRobot致力于降低机器人技术的入门门槛,提供预训练模型、数据集和模拟环境,支持模仿学习和强化学习。...
-
发布了文章 2个月前
LazyLLM – 商汤大装置开源的多智能体应用开发平台
LazyLLM 是开源的低代码平台,帮助开发者快速、低成本地构建多智能体大语言模型应用。通过极简的开发流程,支持一键式部署和跨平台操作,降低了 AI 应用开发的门槛。开发者可以通过简单的代码实现复杂的 AI 应用,例如聊天机...
-
发布了文章 2个月前
LazyGraphRAG – 微软推出的图形增强生成增强检索框架
LazyGraphRAG是微软研究院推出的图形增强生成增强检索(RAG)框架,是GraphRAG的迭代版本。LazyGraphRAG在数据索引成本上大幅降低,是GraphRAG的0.1%,同时用新的混合数据搜索方法,提高生成...
-
发布了文章 2个月前
LayerSkip – Meta推出加速大型语言模型推理过程的技术
LayerSkip是一种用在加速大型语言模型(LLMs)推理过程的技术。基于在训练阶段应用层dropout和早期退出损失,让模型在推理时从早期层开始更准确地退出,不需要遍历所有层。提高模型的推理速度,减少计算资源的消耗。...
-
发布了文章 2个月前
LayerDiffusion – AI生成具有透明度的图像的框架
LayerDiffusion是由来自斯坦福大学的研究人员提出的一种利用大规模预训练的潜在扩散模型生成透明图像的技术,可以帮助用户生成单个透明图像或多个透明图层。该方法的核心在于引入了“潜在透明度”的概念,将图像的alpha通...
-
发布了文章 2个月前
LatentSync – 字节联合北交大开源的端到端唇形同步框架
LatentSync是字节跳动、北京交通大学联合推出的端到端唇形同步框架,基于音频条件的潜在扩散模型,无需任何中间的3D表示或2D特征点。LatentSync用Stable Diffusion的强大生成能力,捕捉复杂的视听关...
-
发布了文章 2个月前
LatentLM – 微软联合清华推出的多模态生成模型
LatentLM是微软研究院和清华大学共同推出的多模态生成模型,能统一处理离散数据(如文本)和连续数据(如图像、音频)。模型用变分自编码器(VAE)将连续数据编码为潜在向量,引入下一个词扩散技术自回归生成向量。...
-
发布了文章 2个月前
Large Motion Model – 商汤科技联合南洋理工推出的统一多模态运动生成模型
Large Motion Model(LMM)是统一的多模态运动生成模型,是新加坡南洋理工大学S-Lab和商汤科技研究团队共同推出的。LMM能处理包括文本到运动、音乐到舞蹈等多种运动生成任务,在多个基准测试中展现出与专家模型...
-
发布了文章 2个月前
Large Action Models – 微软推出的行动大模型开发框架
Large Action Models(LAMs)是微软推出大型行动模型的开发框架,能执行真实世界行动的智能系统,LAMs超越传统LLMs(Large Language Models,大型语言模型)的文本生成能力。LAMs能...





























