首页 / AI工具 / Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统

AI工具

Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统

baidu09_com 2025-08-28 38 0

Crawl4LLM 是清华大学和卡内基梅隆大学联合开源的智能爬虫系统，提升大语言模型（LLM）预训练效率。Crawl4LLM基于智能评估网页对 LLM 预训练的价值，优先抓取高价值网页，相比传统爬虫效率提升近 5 倍。Crawl4LLM支持三种爬取模式：智能模式、随机爬取模式和基于链接数量的爬取模式，同时具备爬虫状态定期保存、数据可视化等功能，能与 DCLM 框架无缝对接，直接用在模型训练。

Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统第1张

（图片来源网络，侵删）

Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统第2张

（图片来源网络，侵删）

清华卡内基清华卡内基是干什么的清华卡内基研究中心清华-卡内基全球政策中心清华大学卡内基全球政策研究中心卡内基清华全球政策研究中心

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://www.baidu09.com/news/13458.html

baidu09_com管理员

上一篇

baidu09翰森制药与德琪医药订立合作协议

下一篇

伟立机器人入选宁波市重点首版次软件拟认定名单

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

关灯返回顶部