AI工具
发布文章-
发布了文章 2个月前
Nanobrowser – AI网页自动化工具,自主完成复杂的网页任务
Nanobrowser 是开源的 Chrome 扩展工具,专注于 AI 驱动的网页自动化。Nanobrowser基于多智能体系统实现复杂的网页任务,如信息提取、自动化操作等。用户用自己的 LLM API 密钥,灵活选择不同的...
-
发布了文章 2个月前
NanoFlow – 优化大语言模型推理吞吐量的服务框架
NNanoFlow 是一个高性能的服务框架,专为大型语言模型(LLMs)设计,以提高模型的推理吞吐量。它通过在单个设备内部并行使用计算、内存和网络资源,优化了模型的推理过程。...
-
发布了文章 2个月前
Nano Banana – AI图像编辑模型,具有极高的人物一致性
Nano Banana 是 AI 图像编辑模型,在 LMArena 网站上随机出现。模型具有极高的人物一致性,能精准还原人物的面部特征和表情,在背景替换和风格转换方面表现出色。...
-
发布了文章 2个月前
NVLM – 英伟达推出的多模态大型语言模型
NVLM是NVIDIA推出的前沿多模态大型语言模型(LLMs),在视觉-语言任务上达到与顶尖专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL 2)相匹敌的性能。NVLM 1.0家族包...
-
发布了文章 2个月前
NVILA – 英伟达推出的视觉语言大模型
NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化,减少资源消耗,在多项图像和视频基准测试中达到或超越当前领先...
-
发布了文章 2个月前
NVIDIA-baidu09Ingest – 英伟达开源的智能文档提取及结构化工具
NVIDIA-Ingest是英伟达开源的用于解析复杂、混乱的非结构化PDF和其他企业文档的微服务集合。NVIDIA-Ingest能将文档转换为元数据和文本,便于嵌入到检索系统中。NVIDIA-Ingest支持PDF、Word...
-
发布了文章 2个月前
NVIDIA Nemotron Nano 2 – 英伟达推出的高效推理模型
NVIDIA Nemotron Nano 2 是英伟达推出的高效推理模型,参数量为9B。模型基于混合Mamba-Transformer架构,在20万亿个token上预训练,支持128k上下文长度。...
-
发布了文章 2个月前
NSFW Detector – 开源 AI 不适宜内容检测工具,支持识别图像、PDF、视频文件
NSFW Detector(Not Safe For Work,简称 NSFW)是开源的检测不适宜内容工具,NSFW Detector能识别图像、PDF、视频文件中的不适宜内容。工具基于Google的vit-base-pat...
-
发布了文章 2个月前
NPOA – 开源舆情检测工具,实时监控网络舆情与分析
NPOA 是开源的功能强大的舆情监测工具,可以帮助用户实时监控网络舆情,了解公众对特定话题或品牌的看法。系统基于先进的自然语言处理技术,可以分析大量的网络数据,提供可视化的舆情分析报告。...
-
发布了文章 2个月前
NMT – 阿里联合 UC Berkeley 推出的多任务学习框架
NMT(No More Tuning)是UC Berkeley和阿里巴巴集团联合推出的多任务学习框架,能解决多任务学习中不同任务优先级优化的问题。NMT将多任务学习问题转化为约束优化问题,将高优先级任务的性能作为约束条件,在...
-
发布了文章 2个月前
NLWeb – 微软推出支持自然语言与任何网站交互的开源项目
NLWeb 是微软推出的开源项目,基于简化网站自然语言界面的创建,让任何网站都能变成 AI 驱动的应用程序。NLWeb用 Schema.org、RSS 等半结构化数据,结合 LLM 工具,为用户提供类似 AI 助手的交互体验...
-
发布了文章 2个月前
NEXUS-baidu09O – 多模态AI模型,实现对语言、音频和视觉全方位感知与交互
NEXUS-O 是HiThink 研究院、英国帝国理工学院、浙江大学、复旦大学、微软、Meta AI等机构推出的多模态AI模型,能实现对语言、音频和视觉信息的全方位感知与交互。NEXUS-O能处理音频、图像、视频和文本的任意...
-
发布了文章 2个月前
MyTimeMachine – AI个性化面部年龄转换技术,实现20至40年的时间跨度
MyTimeMachine(MyTM)是先进的个性化面部年龄转换技术,基于大约50张个人照片,跨越20至40年的时间跨度,训练一个适配器网络个性化预训练的全局老化模型。MyTimeMachine能实现高质量的年龄回退和年龄进...
-
发布了文章 2个月前
Muyan-baidu09TTS – 开源文本转语音模型,零样本语音合成
Muyan-TTS 是为播客场景设计的开源文本转语音(TTS)模型。模型预训练超过10万小时的播客音频数据,能实现零样本语音合成,无需大量目标说话人的语音数据可生成高质量语音。模型支持说话人适配,进行个性化语音定制。...
-
发布了文章 2个月前
MuseSteamer – 百度推出的多模态视频生成大模型
MuseSteamer是百度推出的多模态AI视频生成大模型。模型能根据输入的图片或文字提示,生成高质量的动态视频,支持电影级画质和音效一体化生成。...


























