首页 > 香港科技大学tle

香港科技大学tle

baidu09_com

发布了文章 2个月前

VideoVAE+ – 香港科技大学推出的先进跨模态视频变分自编码器

VideoVAE+（VideoVAE Plus）是香港科技大学团队推出的先进的跨模态视频变分自编码器（Video VAE），通过引入新的时空分离压缩机制和文本指导，实现了对大幅运动视频的高效压缩与精准重建，同时保持了良好的时...
AI工具

0 35 0
baidu09_com

发布了文章 2个月前

Motion Dreamer – 香港科技大学推出的运动合理视频生成框架

Motion Dreamer是香港科技大学（广州）研究者提出的视频生成框架，生成运动合理视频。基于两阶段生成方式，先基于输入图像和运动条件生成中间运动表示，再利用该表示生成高细节视频。其引入实例流这一新运动模态，可实现从稀疏...
AI工具

0 33 0
baidu09_com

发布了文章 2个月前

MagicColor – 香港科技大学推出的多实例线稿图着色框架

MagicColor 是香港科技大学推出的多实例线稿图着色框架，支持高效地为线稿图添加色彩。MagicColor基于自监督训练策略和实例引导模块，解决多实例数据不足的问题，实现精准的实例级色彩控制。...
AI工具

0 37 0
baidu09_com

发布了文章 2个月前

Llasa TTS – 香港科技大学开源的文本转语音模型

Llasa TTS 是香港科技大学基于 LLaMA 架构推出的开源文本转语音（TTS）模型，支持高质量语音合成和克隆。Llasa TTS 基于单层向量量化（VQ）编解码器和单个 Transformer 架构，与标准 LLaM...
AI工具

0 35 0

没有更多内容