留言在赶来的路上...
EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型,在有根据的链式思维(CoT)推理数据上微调OpenVLA创建。EMMA-X结合层次化的具身数据集,包含3D空间运动、2D夹爪位置和有根据的推理,及推出...
EMMA是Waymo基于Gemini模型推出的端到端自动驾驶多模态模型,能将原始相机传感器数据直接映射到驾驶特定输出,如规划轨迹、感知对象和道路图元素。EMMA将非传感器输入和输出表示为自然语言文本,用预训练大型语言模型的世...
EMAGE(Expressive Masked Audio-conditioned GEsture modeling)是清华大学、东京大学、庆应义塾大学等机构推出的用在生成全身共语手势框架。EMAGE能根据音频和部分遮蔽的手...
ELLA(Efficient Large Language Model Adapter,高效的大模型适配器)是由腾讯的研究人员推出的一种新型方法,旨在提升文本到图像生成模型在处理复杂文本提示时的语义对齐能力。...
EICopilot是百度研究院推出的基于AI智能体的企业信息搜索与探索工具。通过大型语言模型(LLM)驱动的智能体,帮助企业用户在大规模知识图谱中高效检索和解读信息。EICopilot的核心优势在于强大的自然语言理解能力,能...
EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型,能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,就能驱动图片中的人物说话,支持自定义情感,如高兴、愤怒、悲伤等。...
EAFormer是复旦推出的AI文本分割框架。擅长在照片中找到文字,并且能很精确地把文字从背景中分离出来。即使文字的边缘很模糊或者背景很复杂,EAFormer也能做得很好。对于想要从图片中去除文字或者编辑文字的人来说非常有用...
DynamicFace是小红书团队推出新型的视频换脸技术,技术通过结合扩散模型和即插即用的时间层,基于3D面部先验知识,实现高质量和一致性的视频换脸效果。 DynamicFace的核心在于引入了四种精细的面部条件:背景、形状...
全部评论
留言在赶来的路上...
发表评论