AI工具
发布文章-
发布了文章 2个月前
PixelFlow – 港大联合 Adobe 推出的图像生成模型
PixelFlow 是香港大学和Adobe联合推出的图像生成模型,支持直接在像素空间中生成图像。PixelFlow基于高效的级联流建模,从低分辨率逐步提升到高分辨率,显著降低计算成本。PixelFlow 在 256×256...
-
发布了文章 2个月前
Pixel3DMM – 慕尼黑联合伦敦大学等推出的3D人脸重建框架
Pixel3DMM是慕尼黑工业大学、伦敦大学学院和Synthesia联合推出的单图像3D人脸重建框架。框架基于DINO基础模型,引入专门的预测头,从单张RGB图像中准确重建出3D人脸的几何结构。...
-
发布了文章 2个月前
Pixel Reasoner – 滑铁卢联合港科大等高校推出的视觉语言模型
Pixel Reasoner是滑铁卢大学、香港科技大学、中国科学技术大学等机构推出的视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理能力。...
-
发布了文章 2个月前
PixWizard – 开源的AI图像视觉助手,多功能图像生成、编辑、翻译
PixWizard是一个多功能的图像到图像视觉助手,基于自然语言指令执行图像生成、编辑和翻译等任务。系统通过统一的图像-文本到图像生成框架,将多种视觉任务整合在一起,通过构建一个包含3000万数据点的全面训练集支持这些任务。...
-
发布了文章 2个月前
PixArt-baidu09Σ – 华为推出的可生成4K高清图像的文生图模型
PixArt-Σ是由来自华为诺亚方舟实验室、大连理工大学和香港大学的研究人员推出的一个基于扩散Transformer架构(DiT)的文生图模型,专门设计用于从文本提示直接生成可达4K分辨率的高质量图像。...
-
发布了文章 2个月前
Pix2Gif – 微软推出的静态图像转动态GIF的扩散模型
Pix2Gif是由微软研究院的研究人员提出的一个基于运动引导的扩散模型,专门用于将静态图像转换成动态的GIF动画/视频。该模型通过运动引导的扩散过程来实现图像到GIF的生成,利用文本描述和运动幅度提示作为输入,来引导图像内容...
-
发布了文章 2个月前
Pippo – Meta 推出的单图生成多视角高清人像视频模型
Pippo是Meta Reality Labs推出的图像到视频生成模型,能从单张照片生成1K分辨率的多视角高清人像视频。模型基于多视角扩散变换器,预训练了30亿张人像图像,在2500张工作室捕捉的图像上进行了后训练。...
-
发布了文章 2个月前
Pipecat – 构建语音和多模态对话代理的开源框架
Pipecat是开源的Python框架,专注于构建语音和多模态对话代理。基于内置的语音识别、文本转语音(TTS)和对话处理功能,简化AI服务的复杂协调、网络传输、音频处理和多模态交互,让开发者能专注于创造引人入胜的用户体验。...
-
发布了文章 2个月前
Piece it Together – Bria AI等机构推出的图像生成框架
Piece it Together (PiT)是Bria AI等机构推出的创新图像生成框架,专门用在从部分视觉组件生成完整的概念图像。基于特定领域的先验知识,将用户提供的碎片化视觉元素无缝整合到连贯的整体中,智能补充缺失的部...
-
发布了文章 2个月前
PhysGen3D – 清华等高校联合推出的单图创建交互式 3D 场景
PhysGen3D 是创新的框架,能将单张图像转换为交互式的 3D 场景,生成具有物理真实感的视频。结合了基于图像的几何和语义理解以及基于物理的模拟,通过从单张图像中推断物体的 3D 形状、姿态、物理和光照属性,创建出以图像...
-
发布了文章 2个月前
PhotoPrism – 开源的AI照片管理工具,AI驱动的照片分类和搜索功能
PhotoPrism 是一个开源的AI照片管理工具,用 Go 语言编写,旨在为用户提供一个去中心化的照片存储和组织解决方案。支持用户在自己的硬件上运行,完全控制自己的数据,不依赖于云服务提供商。...
-
发布了文章 2个月前
PhotoMaker V2 – 腾讯推出的AI图像生成框架
PhotoMaker V2是腾讯推出的AI图像生成框架,能在极短的时间内生成逼真的人物照片。与初代相比,V2版本在角色的一致性和可控性上实现了显著提升,用户可以通过文本指令精确控制生成结果。...
-
发布了文章 2个月前
PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架
PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架,基于少量样本学习艺术家的独特风格,实现照片涂鸦(photo doodling)。PhotoDoodl...
-
发布了文章 2个月前
Phidias – 检索增强的3D内容生成模型,支持多模态输入
Phidias是一个先进的3D内容生成模型,将检索增强生成(RAG)的概念引入到3D建模领域。模型能基于用户提供的或从大型数据库中检索到的3D参考模型,辅助生成新的3D内容。...
-
发布了文章 2个月前
Phidata – 创建具有记忆、知识、工具和推理能力的AI智能体框架
Phidata是开源的AI智能体框架,帮助开发者构建具有记忆、知识、工具和推理能力的智能代理系统。支持创建能够协同工作的代理团队,提供用户界面实现与代理的交互。Phidata包含监控和优化工具,便于跟踪代理性能并和进行改进。...



























