DCLM-7B是由苹果公司联合研究团队推出的70亿参数开源小模型,性能超越Mistral-7B,接近Llama 3和Gemma。最近,苹果公司作为 DataComp-LM(DCLM)项目的研究机构之一,在 Hugging Face 上发布了 DCLM-7B 开源模型。该模型基于240T Common Crawl数据,通过标准化的DCLM-POOL和OpenLM框架预训练,实现了64%的5-shot MMLU准确率,训练效率显著。DCLM-7B的开源包括权重、训练代码和数据集,推动了LLM开源社区的发展,提供了高质量数据集DCLM-BASELINE,为数据驱动的模型研究设立了新基准。


全部评论
留言在赶来的路上...
发表评论