Zamba2-7B是Zyphra公司推出的小型语言模型,基于创新的架构在保持输出质量的同时实现快速的推理速度和低内存占用。模型在处理图像描述等任务时表现出色,适合在边缘设备和消费级GPU上运行。Zamba2-7B采用Mamba2块替代Mamba1块,引入两个共享注意力块用ABAB模式排列,在MLP模块上应用LoRA投影器提高性能。Zamba2-7B在小模型中领先,在质量和性能上都优于Mistral、Google的Gemma和Meta的Llama3系列同尺寸小语言模型 。预训练数据集经过严格过滤,达到3万亿个token的规模,基于特别的退火预训练阶段进一步提升模型质量。


全部评论
留言在赶来的路上...
发表评论