LMEval 是谷歌推出的开源框架,用在简化大型模型(LLMs)的跨提供商评估。框架支持多模态(文本、图像、代码)和多指标评估,兼容 Google、OpenAI、Anthropic 等主流模型提供商。LMEval 基于增量评估引擎,运行必要的测试,节省时间和计算资源。框架自加密的 SQLite 数据库确保评估结果的安全存储。LMEvalboard 提供交互式可视化界面,帮助用户快速分析模型性能,直观比较不同模型的优缺点。

LMEval – 谷歌开源的统一评估多模态AI模型框架  第1张
(图片来源网络,侵删)
LMEval – 谷歌开源的统一评估多模态AI模型框架  第2张
(图片来源网络,侵删)