音视频开源
-
发布了文章 2个月前
ICML 2025 - 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频 在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑...
-
发布了文章 2个月前
Amphion – 开源的全能AI音频项目,面向音频、音乐和语音生成的工具包
Amphion是开源的音频、音乐和语音生成工具包,是香港中文大学(深圳)副教授武执政团队联合上海人工智能实验室和深圳市大数据研究院共同推出的。工具包支持可重复的研究,帮助初级研究人员和工程师快速进入音频、音乐和语音生成领域。...
没有更多内容









