留言在赶来的路上...
LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型,基于自动语音识别(ASR)字幕进行大规模训练。LiveCC像专业解说员一样快速分析视频内容,同步生成自然流畅的语音或文字解说。...
LitServe是基于FastAPI的高性能AI模型部署引擎,专为企业级AI服务设计。支持批处理、流式处理和GPU自动扩展,简化了模型部署流程。...
Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大型语言模型(LLM)无需修改结构实现视觉生成与理解。...
Lipsync-2 是 Sync Labs 推出的全球首个零-shot 嘴型同步模型。无需针对特定演讲者进行预训练,能即时学习并生成符合独特说话风格的嘴型同步效果。...
Linly-Dubbing是一个开源的智能视频多语言AI配音和翻译工具,能自动将视频内容翻译成多种语言,并生成字幕。通过WhisperX和FunASR进行精准语音识别,基于Edge TTS、XTTS 和 CosyVoice...
Lingua 是 Meta AI推出的一个轻量级且独立的代码库,旨在助力大规模训练语言模型。基于易于修改的 PyTorch 组件,便于研究人员尝试新的模型架构、损失函数和数据集。Lingua 专注于端到端训练、推理和评估,提...
Lingshu是阿里巴巴达摩院推出的专注于医学领域的多模态大型语言模型。模型支持超过12种医学成像模态,包括X光、CT扫描、MRI等,在多模态问答、文本问答及医学报告生成等任务上展现出卓越的性能。Lingshu基于多阶段训练...
Lingo 是西湖心辰推出的国内首个端到端语音大模型,在技术上具备实时打断、实时指令控制、超级拟人、能说会唱等能力,拥有比 GPT-4o 更出色的中文语音效果。...
全部评论
留言在赶来的路上...
发表评论