Nemotron-CC是NVIDIA团队推出的大型预训练数据集,能将Common Crawl数据转化为适用于长序列预训练的高质量语料。Nemotron-CC数据集结合分类器集成、合成数据重述和减少启发式过滤器依赖等方法,实现数据量和质量的更好平衡。Nemotron-CC包含6.3万亿个tokens,其中4.4万亿为全球去重的原始tokens,1.9万亿为合成生成的tokens。Nemotron-CC在短期(1T tokens)和长期(15T tokens)训练中均展现出优越性,特别是在MMLU等任务上,相比DCLM和Llama 3.1模型,Nemotron-CC显著提高了模型的准确性。Nemotron-CC数据集的开发为大型语言模型的训练提供了更丰富、更多样的数据资源。


全部评论
留言在赶来的路上...
发表评论