Crawl4LLM 是清华大学和卡内基梅隆大学联合开源的智能爬虫系统,提升大语言模型(LLM)预训练效率。Crawl4LLM基于智能评估网页对 LLM 预训练的价值,优先抓取高价值网页,相比传统爬虫效率提升近 5 倍。Crawl4LLM支持三种爬取模式:智能模式、随机爬取模式和基于链接数量的爬取模式,同时具备爬虫状态定期保存、数据可视化等功能,能与 DCLM 框架无缝对接,直接用在模型训练。

Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统  第1张
(图片来源网络,侵删)
Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统  第2张
(图片来源网络,侵删)