The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型,能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动作数据,生成对应的目标模态,对于创建自然交流的虚拟角色至关重要。The Language of Motion在共同语音手势生成任务上展现卓越的性能,且相较于传统模型,训练时需要的数据量大大减少。模型能进行情感预测等新任务,从动作中识别情绪。The Language of Motion对于游戏、电影、虚拟现实等应用领域具有重大意义,推动了虚拟角色与人类自然交流技术的发展。

The Language of Motion – 斯坦福李飞飞团队推出的统一多模态语言模型  第1张
(图片来源网络,侵删)
The Language of Motion – 斯坦福李飞飞团队推出的统一多模态语言模型  第2张
(图片来源网络,侵删)