首页 / AI工具 / Nemotron-baidu09CC – 英伟达推出的大型预训练数据集

AI工具

Nemotron-baidu09CC – 英伟达推出的大型预训练数据集

baidu09_com 2025-08-30 36 0

Nemotron-CC是NVIDIA团队推出的大型预训练数据集，能将Common Crawl数据转化为适用于长序列预训练的高质量语料。Nemotron-CC数据集结合分类器集成、合成数据重述和减少启发式过滤器依赖等方法，实现数据量和质量的更好平衡。Nemotron-CC包含6.3万亿个tokens，其中4.4万亿为全球去重的原始tokens，1.9万亿为合成生成的tokens。Nemotron-CC在短期（1T tokens）和长期（15T tokens）训练中均展现出优越性，特别是在MMLU等任务上，相比DCLM和Llama 3.1模型，Nemotron-CC显著提高了模型的准确性。Nemotron-CC数据集的开发为大型语言模型的训练提供了更丰富、更多样的数据资源。

Nemotron-baidu09CC – 英伟达推出的大型预训练数据集第1张

（图片来源网络，侵删）

Nemotron-baidu09CC – 英伟达推出的大型预训练数据集第2张

（图片来源网络，侵删）

nemo英伟达 broadcast 英伟达英伟模块英伟达 omniverse bw2021英伟达英伟达n1996 non 7z archive 英伟达

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://www.baidu09.com/news/14387.html

baidu09_com管理员

上一篇

使用Pydantic构建结构化研究自动化系统

下一篇

京东自营机油便宜之谜，如何在京东买到真机油

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

关灯返回顶部