AI工具
发布文章-
发布了文章 2个月前
PortraitGen – 中科大推出的AI人像视频编辑工具
PortraitGen是中国科学技术大学研究团队推出的一款AI人像视频编辑工具。基于3D高斯溅射技术和神经高斯纹理机制,将2D人像视频转换为4D高斯场,实现高质量的3D和时间一致性编辑。...
-
发布了文章 2个月前
Pollinations.AI – 开源AI内容生成平台,提供免费文本和图像生成API
Pollinations.AI 是开源的AI内容生成平台,提供免费且易于使用的文本和图像生成 API。Pollinations.AI无需注册或 API 密钥即可使用,支持多种功能,包括图像生成、文本生成、文生音频、音频转文字...
-
发布了文章 2个月前
Poetry2Image – 专为中文古诗词图像生成设计的迭代校正框架
Poetry2Image是一个专为中文古诗词图像生成设计的迭代校正框架,哈尔滨工业大学提出。框架通过自动化的反馈和校正循环,增强了诗歌与图像之间的一致性,有效捕捉诗歌的语义和艺术精髓。解决文本到图像生成模型在处理中文古典诗歌...
-
发布了文章 2个月前
Podcastfy – AI文本转语音工具,支持多源文本转多种语言音频
Podcastfy 是一个开源的 Python 软件包,能将网络内容、PDF 文档及文本转换成多语言的音频对话形式。这款工具采用了先进的生成式人工智能(GenAI)技术,类似于谷歌旗下的 NotebookLM,但更加注重编程...
-
发布了文章 2个月前
PodAgent – 港中文、微软、小红书联合推出的播客生成框架
PodAgent 是香港中文大学、微软和小红书联合推出的播客生成框架。基于模拟真实的脱口秀场景,用多智能体协作系统(包括主持人、嘉宾和编剧)自动生成丰富且结构化的对话内容。PodAgent构建了多样化的声音库,用在精准匹配角...
-
发布了文章 2个月前
Pocket Flow – 开源的轻量级AI应用开发框架,仅用100行代码实现
Pocket Flow 是极简的 LLM(大型语言模型)框架,仅用 100 行代码实现,具有轻量级、无依赖、无厂商锁定的特点。Pocket Flow支持多Agents、工作流、检索增强生成(RAG)等强大功能,帮助开发者快速...
-
发布了文章 2个月前
Playwright MCP – 微软推出的AI浏览器自动化工具
Playwright MCP 是微软推出的轻量级浏览器自动化工具,基于 Model Context Protocol (MCP 协议。工具基于 Playwright 的可访问性树实现与网页的交互,无需依赖视觉模型或截图,适...
-
发布了文章 2个月前
Playmate – 趣丸科技团队推出的人脸动画生成框架
Playmate是广州趣丸科技团队推出的人脸动画生成框架。框架基于3D隐式空间引导扩散模型,用双阶段训练框架,根据音频和指令精准控制人物的表情和头部姿态,生成高质量的动态肖像视频。...
-
发布了文章 2个月前
Playground v3 – Playground Research推出超越人类设计师的文本到图像模型
Playground v3(PGv3)是由Playground Research推出的最新文本到图像模型,基于深度融合的大型语言模型(LLM)技术,实现在图形设计任务上超越人类设计师的能力。PGv3拥有240亿参数量,能精确...
-
发布了文章 2个月前
PlayDiffusion – Play AI开源的音频编辑模型
PlayDiffusion是PlayAI推出的新型音频编辑模型,基于扩散模型技术,专门用在音频的精细编辑和修复。模型将音频编码为离散的标记序列,对需要修改的部分进行掩码处理,用扩散模型在给定更新文本的条件下对掩码区域进行去噪...
-
发布了文章 2个月前
PlanGEN – 谷歌研究团队推出的多智能体框架
PlanGEN 是谷歌研究团队推出的多智能体框架,通过多智能体协作、约束引导和算法自适应选择,解决复杂问题的规划和推理。包含三个关键组件:约束智能体、验证智能体和选择智能体。智能体协同工作,形成一个强大的问题解决系统。...
-
发布了文章 2个月前
Pixtral Large – Mistral AI开源的超大多模态模型
Pixtral Large是法国Mistral AI开源的1240亿参数超大多模态模型,具备前沿级图像理解能力,支持128K上下文,能理解文本、图表和图像。Pixtral Large基于Mistral Large 2开发,拥...
-
发布了文章 2个月前
Pixtral 12B – Mistral AI推出的首款多模态AI模型
Pixtral 12B 是法国AI初创公司Mistral推出的首款多模态AI模型,能同时处理图像和文本。模型拥有 120 亿参数,模型大小约为 24GB,基于文本模型 Nemo 12B构建,能回答任意数量、任意尺寸图像的问题...
-
发布了文章 2个月前
PixelWave Flux – AI图像生成模型,基于FLUX.1-baidu09dev模型微调版本
PixelWave Flux.1-dev 03是基于FLUX.1-dev模型在NVIDIA 4090上微调的AI图像生成模型,有卓越的模型泛化能力,模型在处理多种艺术风格、摄影和动漫图像方面表现出色,在审美、写实和动漫风格上...
-
发布了文章 2个月前
PixelHacker – 华中科技联合VIVO推出的图像修复模型
PixelHacker 是华中科技大学和 VIVO AI Lab联合推出的图像修复(Image Inpainting)模型。基于引入潜在类别引导(Latent Categories Guidance, LCG)范式,分别对前...































