AI工具
发布文章-
发布了文章 2个月前
PaddleOCR 2.9 – 百度飞桨推出的新版开源光学字符识别(OCR)工具库
PaddleOCR 2.9是由百度飞桨(PaddlePaddle)推出的一款开源光学字符识别(OCR)工具库。提供丰富的算法和模型,支持多种语言识别,提供数据标注和合成工具。PaddleOCR 2.9特别强化文档场景信息抽取...
-
发布了文章 2个月前
Pad.ws – 在线AI开发工具,白板功能与代码编辑器深度结合
Pad.ws 是创新的在线开发环境,结合了白板功能与完整的 IDE 工具。基于浏览器运行,无需安装额外软件,用户可以随时随地通过任何设备访问。将交互式白板与代码编辑器深度融合,支持使用 Excalidraw 进行绘图,方便头...
-
发布了文章 2个月前
PaSa – 字节跳动推出的学术论文检索智能体
PaSa是字节跳动研究团队(ByteDance Research)推出的基于强化学习的学术论文检索智能体。能模仿人类研究者的行为,自动调用搜索引擎、浏览相关论文并追踪引文网络,为用户提供精准、全面的学术论文检索结果。...
-
发布了文章 2个月前
PUMA – 多粒度策略统一的多模态大语言模型
PUMA是一个先进的多模态大型语言模型(MLLM),旨在基于集成多粒度视觉特征统一和增强视觉生成和理解任务。PUMA能处理从文本到图像的生成、详细的图像编辑及其他视觉任务,适应不同层次的细节要求。...
-
发布了文章 2个月前
PSHuman – 开源的单图像3D人像重建技术,仅需一张照片
PSHuman是先进的单图像3D人像重建技术。基于跨尺度多视图扩散模型,仅需一张照片,能生成高度逼真的3D人像模型,包括精细的面部表情和全身姿态。核心优势在于能同时建模全局形状和局部细节的联合概率分布,避免几何失真,还能保持...
-
发布了文章 2个月前
PRefLexOR – MIT 团队推出的新型自学习AI框架
PRefLexOR(Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning)是MIT团队提出的新型自学习A...
-
发布了文章 2个月前
PPTAgent – 中科院推出的自动生成高质量演示文稿框架
PPTAgent是中国科学院软件研究所中文信息处理实验室推出的创新框架,基于模仿人类工作流程的两阶段编辑方法,从文档自动生成高质量的演示文稿。PPTAgent分析参考演示文稿,提取结构模式和内容模式,基于代码动作草拟大纲并生...
-
发布了文章 2个月前
PP-baidu09TableMagic – 百度飞桨团队开源的表格识别工具
PP-TableMagic 是百度飞桨团队推出的高性能表格识别工具,用在将图片中的表格结构化信息提取出来,转换为 HTML 等格式,进行进一步的数据处理和分析。PP-TableMagic 用自研的轻量级表格分类模型 PP-L...
-
发布了文章 2个月前
PP-baidu09DocBee – 百度飞桨推出的文档图像理解多模态大模型
PP-DocBee是百度飞桨(PaddlePaddle)团队推出的专注于文档图像理解的多模态大模型。基于ViT+MLP+LLM架构,具备强大的中文文档解析能力,能高效处理文字、表格、图表等多类型文档内容。PP-DocBee在...
-
发布了文章 2个月前
POINTS 1.5 – 腾讯微信推出的多模态大模型
POINTS 1.5 是腾讯微信发布的多模态大模型,是POINTS 1.0的升级版本。 模型继续沿用了POINTS 1.0中的LLaVA架构,由一个视觉编码器、一个投影器和一个大型语言模型组成。 POINTS 1.5在效率和...
-
发布了文章 2个月前
PIKE-baidu09RAG – 微软亚洲研究院推出的检索增强型生成框架
PIKE-RAG(sPecIalized KnowledgE and Rationale Augmented Generation)是微软亚洲研究院推出的检索增强型生成框架,能解决传统RAG系统在复杂工业应用中的局限性。PI...
-
发布了文章 2个月前
PGTFormer – 先进的AI视频人脸修复框架
PGTFormer是先进的视频人脸修复框架,通过解析引导的时间一致性变换器来恢复视频中的高保真细节,同时增强时间连贯性。该方法无需预对齐,基于语义解析选择最佳人脸先验,并通过时空Transformer模块和时序保真度调节器,...
-
发布了文章 2个月前
PDFtoChat – AI驱动的与PDF互动提取关键信息的开源项目
PDFtoChat 是一个开源的创新AI项目,支持用户基于自然语言对话的方式与 PDF 文件互动。工具基于最新的 AI 技术,包括 Together AI 和 Mixtral,理解用户的查询,从 PDF 内容中提取相关信息。...
-
发布了文章 2个月前
PDFMathTranslate – 开源的PDF文档翻译和双语对照工具
PDFMathTranslate是开源的PDF文档翻译工具,设计用于翻译科技论文等PDF文件,能保留原文的排版,包括公式和图表。PDFMathTranslate支持双语对照,保持原有目录结构,兼容多种翻译服务,如Google...
-
发布了文章 2个月前
PDF2Audio – 将PDF文档转换成音频博客的开源工具
PDF2Audio 是一个开源工具,能将 PDF 文档转换成音频内容,适合制作播客、讲座或摘要。它基于 OpenAI 的 GPT 模型生成播客脚本,通过文本到语音技术转化为音频。...































