首页 / AI工具 / CoGenAV – 通义联合深圳技术大学推出的多模态语音表征模型

AI工具

CoGenAV – 通义联合深圳技术大学推出的多模态语音表征模型

baidu09_com 2025-08-28 39 0

CoGenAV（Contrastive-Generative Audio-Visual Representation Learning）是先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV仅需223小时的标记数据即可训练，展现出极高的数据效率。

CoGenAV – 通义联合深圳技术大学推出的多模态语音表征模型第1张

（图片来源网络，侵删）

CoGenAV – 通义联合深圳技术大学推出的多模态语音表征模型第2张

（图片来源网络，侵删）

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://www.baidu09.com/news/13399.html

baidu09_com管理员

上一篇

CoA – 谷歌推出的多智能体协作框架

下一篇

使用位置传感器进行无刷电机控制

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

关灯返回顶部