AI工具
发布文章-
发布了文章 2个月前
SkyReels-baidu09V2 – 昆仑万维开源的无限时长电影生成模型
SkyReels-V2是昆仑万维SkyReels团队推出的无限时长电影生成模型,基于扩散强迫(Diffusion-forcing)框架,结合多模态大语言模型(MLLM)、多阶段预训练、强化学习等技术,生成高质量、无限时长的视...
-
发布了文章 2个月前
SkyReels-baidu09V1 – 昆仑万维开源首个面向AI短剧创作的视频生成模型
SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型。基于在千万级高质量影视数据上进行微调,实现影视级的人物微表情和肢体动作生成,支持33种细腻表情与400多种自然动作组合,高度还原真实情感表达。...
-
发布了文章 2个月前
SkyReels-baidu09A3 – 昆仑万维推出的数字人视频生成模型
SkyReels-A3是昆仑万维推出的先进AI模型,基于DiT(Diffusion Transformer)视频扩散架构,结合插帧、强化学习和运镜控制技术。模型能通过音频驱动,将照片或视频中的人物“激活”,使其开口说话或表演...
-
发布了文章 2个月前
SkyReels-baidu09A2 – 昆仑万维推出的可控视频生成框架
SkyReels-A2是昆仑万维推出的可控视频生成框架,支持根据文本提示将任意视觉元素(如人物、物体、背景)组合成合成视频,严格保持与每个元素的参考图像的一致性。...
-
发布了文章 2个月前
SkyReels-baidu09A1 – 昆仑万维开源的表情动作可控算法
SkyReels-A1是昆仑万维开源的中国首个SOTA(State-of-the-Art)级别的基于视频基座模型的表情动作可控算法。SkyReels-A1能实现更精准可控的人物视频生成,能基于任意人体比例(如肖像、半身及全身...
-
发布了文章 2个月前
Sky-baidu09T1 – NovaSky 开源的推理 AI 模型,可从零开始复现该模型
Sky-T1是加州大学伯克利分校Sky Computing实验室的研究团队NovaSky发布的开源推理AI模型,名为Sky-T1-32B-Preview。是首个开源推理模型,训练数据集和代码均已公开,用户可以从零开始复现该模...
-
发布了文章 2个月前
SketchVideo – 快手联合多所高校推出基于草图的视频生成与编辑框架
SketchVideo 是中国科学院大学,香港科技大学和快手可灵团队推出的基于草图的视频生成与编辑框架。在关键帧上绘制草图,结合文本提示,实现对视频的空间布局和运动的精细控制。...
-
发布了文章 2个月前
Sketch2Sound – Adobe 联合西北大学推出的AI音频生成技术
Sketch2Sound是Adobe 研究院和西北大学推出的AI音频生成技术,能基于声音模仿和文本提示生成高品质音效。Sketch2Sound从声音模仿中提取响度、亮度和音高三个控制信号,将控制信号编码后用于条件文本到声音的...
-
发布了文章 2个月前
Sketch2Lineart – AI绘画工具,自动将手绘草图转换成清晰的线条画
Sketch2Lineart是基于人工智能的绘画工具,能将简单的手绘草图转换成清晰的线条画。通过自动生成草图描述并据此绘制线条画,支持调整细节适应不同风格。用户只需上传草图,可在线预览下载转换后的线条画。...
-
发布了文章 2个月前
Sketch2Anim – 爱丁堡大学等机构推出的2D草图转3D动画框架
Sketch2Anim 是爱丁堡大学联合Snap Research、东北大学推出的自动化框架,能将2D草图故事板直接转换为高质量的3D动画。基于条件运动合成技术,用3D关键姿势、关节轨迹和动作词精确控制动画的生成。...
-
发布了文章 2个月前
Sitcom-baidu09Crafter – 北航联合港中文等高校推出的 3D 人类动作生成系统
Sitcom-Crafter 是北京航空航天大学、香港中文大学(深圳)、悉尼科技大学、中山大学等高校联合推出的 3D 场景中人类动作生成系统。基于用户提供的长剧情指导,生成多样化且物理真实的动作,包括人类行走、人类与场景交互...
-
发布了文章 2个月前
SimpleQA – OpenAI开源的新基准,用于评估前沿模型的事实准确性
SimpleQA是OpenAI推出的基准测试,用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA包含4326个问题,每个问题设计为只有一个正确答案,易于评分”。SimpleQA挑战性强,即使是最先进的大模型如...
-
发布了文章 2个月前
SimpleAR – 复旦大学联合字节 Seed 团队推出的图像生成模型
SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。采用简洁的自回归架构,通过优化训练和推理过程,实现了高质量的图像生成。SimpleAR 仅用 5 亿参数即可生成 1024×1...
-
发布了文章 2个月前
SignGemma – 谷歌DeepMind推出的手语翻译AI模型
SignGemma 是谷歌 DeepMind 团队推出的全球最强大的手语翻译AI模型。专注于将美国手语(ASL)翻译成英语文本,通过多模态训练方法,结合视觉数据和文本数据,精准识别手语动作并实时转化为口语文本。...
-
发布了文章 2个月前
SigStyle – 吉大联合 Adobe 等机构推出的风格迁移框架
SigStyle 是吉林大学、南京大学智能科学与技术学院及Adobe推出的新型签名风格迁移框架,支持将单张风格图像中独特的视觉特征(如几何结构、色彩搭配、笔触等)无缝迁移到内容图像上。SigStyle基于个性化文本到图像扩散...































