MangaNinja是基于参考图像的线稿上色方法,具备精准匹配和细致控制的能力。通过创新的补丁重排模块和点驱动控制方案,提升了上色的准确性与图像质量。能应对多样化的上色挑战,包括极端姿势和多参考图像的协调,实现高质量的互动上色体验。
留言在赶来的路上...
MindSearch是上海人工智能实验室联合研发团队推出的开源AI搜索框架,结合了大规模信息搜集和整理能力。利用InternLM2.5 7B对话模型,MindSearch能在3分钟内从300多个网页中搜集有效信息,完成通常需...
MindOmni 是腾讯 ARC Lab 联合清华大学深圳国际研究生院、香港中文大学和香港大学等推出的多模态大型语言模型,基于强化学习算法(RGPO)显著提升视觉语言模型的推理生成能力。模型用三阶段训练策略,首先构建统一视觉...
MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型,能将脑部功能性磁共振成像(fMRI)信号解码为自然语言文本。MindLLM基于一个主体无关(subject-agnostic)的 fMRI 编码器和一个大...
Mind GPT-3o是理想汽车推出的多模态端到端大模型,融合语音、视觉和语言理解技术,实现高效实时交互。Mind GPT-3o具备记忆、规划、工具使用和表达能力,能提升用户认知、完成任务并提供情感支持。...
MinT(Mind the Time)是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架,基于精确的时间控制,根据文本提示生成包含多个事件的视频序列。MinT的核心技术是时间基位置编码(ReRo...
MinMo是阿里巴巴通义实验室FunAudioLLM团队推出的多模态大模型,专注于实现无缝语音交互。MinMo拥有约80亿参数,基于多阶段训练,在140万小时多样化语音数据和广泛语音任务上进行学习。...
MimicTalk是浙江大学和字节跳动共同研发推出的,基于NeRF(神经辐射场)技术,能在极短的时间内,仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。MimicTalk提高了训练效率,基于高效的微调策略和具有上下文...
MimicMotion是腾讯的研究人员推出的一个高质量的人类动作视频生成框架,利用置信度感知的姿态引导技术,确保视频帧的高质量和时间上的平滑过渡。此外,MimicMotion通过区域损失放大和手部区域增强,显著减少了图像失真...
全部评论
留言在赶来的路上...
发表评论