AI工具
发布文章-
发布了文章 2个月前
Sa2VA – 字节跳动等机构开源的多模态大语言模型
Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是SAM2和LLaVA结合而成,能实现对图像和视频的密集、细粒度理解。Sa2VA基于统一的任务表示,将图像或视频指代分割、视觉对话、视...
-
发布了文章 2个月前
SWEET-baidu09RL – Meta 推出的多轮强化学习框架
SWEET-RL是Meta推出的多轮强化学习框架,专门用在训练大型语言模型(LLM)代理进行协作推理任务。SWEET-R基于训练时的额外信息(如参考解决方案)优化“批评者”模型,模型为每个步骤提供奖励,帮助“行动者”模型更好...
-
发布了文章 2个月前
SWE-baidu09agent – 普林斯顿开源的AI程序员智能体
SWE-agent是一个由普林斯顿大学NLP组研究人员开发的开源AI程序员和软件工程师系统,利用大型语言模型(如GPT-4)的能力,可以自动解决GitHub存储库中的问题。SWE-agent通过智能体-计算机接口(ACI)与...
-
发布了文章 2个月前
SWE-baidu09Lancer – OpenAI 推出的大模型基准测试
SWE-Lancer 是 OpenAI 推出的大模型基准测试,评估前沿语言模型(LLMs)在自由职业软件工程任务中的表现。包含来自 Upwork 的 1400 多个任务,总价值达 100 万美元,分为个人贡献者(IC)任务和...
-
发布了文章 2个月前
SWE-baidu09Kit – 构建自定义软件工程AI代理的开源框架
SWE-Kit 是Composio 推出的开源框架, 简化软件工程 AI 代理的开发过程。SWE-Kit提供无头 IDE 环境和 AI 原生工具,用于构建自定义编码代理,支持与多种代理框架和大型语言模型集成,降低构建复杂 A...
-
发布了文章 2个月前
SWE-baidu091 – Windsurf推出的首个软件工程 AI 模型系列
SWE-1是Windsurf团队推出的首个软件工程 AI 模型系列,专为整个软件开发流程优化,涵盖代码生成、测试、调试、资料查找等开发环节,提升开发效率和用户体验。...
-
发布了文章 2个月前
SVFR – 腾讯优图联合厦门大学推出的通用视频人脸修复统一框架
SVFR(Stable Video Face Restoration)是腾讯优图实验室和厦门大学联合推出的用于广义视频人脸修复的统一框架,整合了视频人脸修复(BFR)、着色和修复任务,基于Stable Video Diffu...
-
发布了文章 2个月前
SVDQuant – MIT 推出的扩散模型后训练量化技术
SVDQuant是MIT研究团队推出的后训练量化技术,针对扩散模型,将模型的权重和激活值量化至4位,减少内存占用加速推理过程。SVDQuant引入高精度的低秩分支吸收量化过程中的异常值,在保持图像质量的同时,实现在16GB...
-
发布了文章 2个月前
SUPIR – 高保真的AI图像修复和画质增强模型
SUPIR是一个突破性的图像修复和画质增强方法,利用了大规模的生成模型StableDiffusion-XL(SDXL)和模型扩展技术,通过深度学习和多模态方法,实现了对低质量图像的高质量恢复。...
-
发布了文章 2个月前
STranslate – 多功能免费AI翻译工具,支持离线OCR识别
STranslate是专为Windows用户设计的多功能翻译和OCR工具。支持多种语言翻译,具备划词、截图、监听剪贴板等多种翻译方式,并提供多家翻译服务接口。还拥有基于PaddleOCR的离线OCR功能,支持中文、英文、日文...
-
发布了文章 2个月前
STORM AI – 斯坦福大学推出的开源AI写作工具
...
-
发布了文章 2个月前
STIV – 苹果公司推出的视频生成大模型
STIV(Scalable Text and Image Conditioned Video Generation)是苹果公司推出的视频生成大模型。STIV拥有8.7亿参数,能处理文本到视频(T2V)和文本图像到视频(TI2...
-
发布了文章 2个月前
START – 阿里联合中科大推出的自学推理模型
START(Self-Taught Reasoner with Tools)是阿里巴巴集团和中国科学技术大学推出的新型工具增强型推理模型,结合外部工具(如Python代码执行器)提升大型语言模型(LLMs)的推理能力。STA...
-
发布了文章 2个月前
STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架
STAR是南京大学、字节跳动、西南大学联合推出的,创新的现实世界视频超分辨率(VSR)框架,能从低分辨率(LR)视频生成高分辨率(HR)视频,同时保持细节清晰度和时间一致性。STAR整合强大的文本到视频(T2V)扩散模型增强...
-
发布了文章 2个月前
SPRIGHT – 专注于空间关系的大型视觉语言数据集
SPRIGHT(SPatially RIGHT)是亚利桑那州立大学 、Intel 实验室 、Hugging Face 、华盛顿大学等机构联合推出的,专注于空间关系的大型视觉-语言数据集,能解决现有文本到图像(T2I)模型在生...






























