OpenELM是Apple苹果公司最新推出的系列高效开源的语言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本(分为预训练版和指令微调版)。该大模型利用层间缩放策略在Transformer模型的每一层中进行参数的非均匀分配,以此提高模型的准确度和效率。该模型在公共数据集上进行了预训练,并且在多个自然语言处理任务上展现出了优异的性能。OpenELM的代码、预训练模型权重以及训练和评估流程全部开放,旨在促进开放研究和社区的进一步发展。

研究人员将OpenELM与PyThia、Cerebras-GPT、TinyLlama、OpenLM、MobiLlama和OLMo等模型进行了比较。在相似的模型大小下,OpenELM在ARC、BoolQ、HellaSwag、PIQA、SciQ和WinoGrande等主流的任务测试中的多数任务上展现出了更高的准确度。尤其是,与模型相比,OpenELM在参数数量和预训练数据更少的情况下,准确率依然更高。

OpenELM – 苹果开源的高效语言模型系列  第1张
(图片来源网络,侵删)
OpenELM – 苹果开源的高效语言模型系列  第2张
(图片来源网络,侵删)