AI工具
发布文章-
发布了文章 2个月前
丰语大模型 – 顺丰推出物流行业的大语言模型,摘要准确率达95%+
丰语大模型是顺丰科技推出的物流行业专用大语言模型。顺丰科技表示,丰语大模型以更小的尺寸模型对更大尺寸通用模型在物流垂域的全面超越。丰语大模型已在市场营销、客户服务、快递收派等多个业务场景中得到应用,能提升摘要准确率至95%以...
-
发布了文章 2个月前
万相首尾帧模型 – 阿里通义开源的首尾帧生视频模型
万相首尾帧模型(Wan2.1-FLF2V-14B)是开源的14B参数规模的首尾帧生视频模型。模型根据用户提供的首帧和尾帧图像,自动生成流畅的高清视频过渡效果,支持多种风格和特效变换。...
-
发布了文章 2个月前
万相2.1 – 通义万相最新推出的视频生成模型
万相2.1是阿里推出的通义万相升级版本。基于自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,首次实现中文文字视频生成功能。升级后的通义万相在VBench榜单上荣登第一。万相2.1能...
-
发布了文章 2个月前
xLAM – Salesforce开源的AI大模型,专注函数调用功能
xLAM 是 Salesforce 开源的一款大型语言模型,专为功能调用任务设计。模型能理解和执行基于自然语言指令的 API 调用,它在自动化任务和与各种数字服务交互方面非常有用。...
-
发布了文章 2个月前
xGen-baidu09MM – Salesforce推出的开源多模态AI模型
xGen-MM是Salesforce推出的一款开源多模态AI模型,具有处理交错数据的能力,能同时理解和生成文本、图像等多种数据类型。xGen-MM通过学习大量的图片和文字信息,不仅在视觉语言任务上展现出强大的性能,还通过开源...
-
发布了文章 2个月前
xAR – 字节联合霍普金斯大学推出的自回归视觉生成框架
xAR 是字节跳动和约翰·霍普金斯大学联合提出的新型自回归视觉生成框架。框架通过“下一个X预测”(Next-X Prediction)和“噪声上下文学习”(Noisy Context Learning)技术,解决了传统自回归...
-
发布了文章 2个月前
video-baidu09subtitle-baidu09master – 开源AI字幕生成工具,支持批量为视频或音频生成字幕
video-subtitle-master 是能批量为视频或音频生成字幕的工具,基于开源项目 VideoSubtitleGenerator 开发,支持批量为视频或音频生成字幕,将字幕翻译成其他语言。video-subtitl...
-
发布了文章 2个月前
video-baidu09analyzer – AI 视频分析工具,提取视频关键帧、生成视频详细描述
video-analyzer是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容,并生成视频的详细描述。工具支持完全本地运行,无需云服务或API密钥,或用Ope...
-
发布了文章 2个月前
unsloth – 开源的大语言模型微调工具
unsloth 是开源的大语言模型(LLM)微调工具,基于优化计算步骤和 GPU 内核,显著提升模型训练速度减少内存使用。Unsloth支持多种主流 LLM,如 Llama-3、Mistral、Phi-4 等,在单 GPU...
-
发布了文章 2个月前
story-baidu09flicks – AI视频生成工具,一键生成高清故事短视频
story-flicks 是基于AI大模型的项目,支持一键生成高清故事短视频。用户输入故事主题后,系统基于AI技术生成包含图像、文本、音频和字幕的短视频。story-flicks 项目支持多种模型提供商,如OpenAI、阿里...
-
发布了文章 2个月前
smoltalk-baidu09chinese – OpenCSG 开源专为中文大型语言模型设计的合成数据集
smoltalk-chinese 是OpenCSG开源的专为中文大型语言模型(LLM)设计的合成数据集,该数据集包含超过 70 万条合成数据,涵盖了信息查询、推理、计划、编辑、编程、数学、角色扮演、数据分析、创意写作、咨询和...
-
发布了文章 2个月前
smolagents – Hugging Face 开源的轻量级 Agent 构建库
smolagents 是 Hugging Face 推出的轻量级开源库,简化智能代理的构建过程。极简的代码量(约千行)和直观的API设计,使开发者能快速搭建和部署智能代理。smolagents 支持一流代码代理,支持通过沙盒...
-
发布了文章 2个月前
self-baidu09llm – 专为中国开发者推出的开源大模型教程
self-llm (开源大模型食用指南)是Datawhale专为国内初学者打造的开源大模型教程,基于Linux平台,提供从环境配置到模型部署、微调的全流程指导,涵盖LLaMA、ChatGLM等主流模型。...
-
发布了文章 2个月前
screenpipe – 搭建个性化AI助手的软件,捕捉屏幕和音频录音
screenpipe是一款基于AI技术,全天候监控用户电脑屏幕和麦克风的开源软件。通过捕捉屏幕活动和音频,用AI进行智能分析,提升工作效率和保障数据隐私。screenpipe的核心功能包括自动生成每日工作摘要、记录总结会议内...
-
发布了文章 2个月前
sCM – OpenAI推出连续时间一致性模型,两步采样生成高质量图像
sCM是OpenAI推出的连续时间一致性模型,基于扩散模型原理进行改进。sCM简化理论框架和优化采样过程,实现图像生成速度的显著提升。sCM模型仅需两步采样能生成高质量图像,速度比传统扩散模型快50倍。...