OpenELM – 苹果开源的高效语言模型系列

baidu09_com 2025-08-30 31 0

OpenELM是Apple苹果公司最新推出的系列高效开源的语言模型，包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本（分为预训练版和指令微调版）。该大模型利用层间缩放策略在Transformer模型的每一层中进行参数的非均匀分配，以此提高模型的准确度和效率。该模型在公共数据集上进行了预训练，并且在多个自然语言处理任务上展现出了优异的性能。OpenELM的代码、预训练模型权重以及训练和评估流程全部开放，旨在促进开放研究和社区的进一步发展。

研究人员将OpenELM与PyThia、Cerebras-GPT、TinyLlama、OpenLM、MobiLlama和OLMo等模型进行了比较。在相似的模型大小下，OpenELM在ARC、BoolQ、HellaSwag、PIQA、SciQ和WinoGrande等主流的任务测试中的多数任务上展现出了更高的准确度。尤其是，与模型相比，OpenELM在参数数量和预训练数据更少的情况下，准确率依然更高。