幻觉展示
-
发布了文章 2个月前
开源模型「幻觉」更严重,这是三元组粒度的幻觉检测套件
开源模型「幻觉」更严重,这是三元组粒度的幻觉检测套件 BSChecker:细粒度大模型幻觉检测工具与基准测试排行榜大模型长期以来一直存在一个致命的问题,即生成幻觉。由于数据集的复杂性,难免会包含过时和错误的信息,这使得...
-
发布了文章 2个月前
中文大模型幻觉测评系列:事实性幻觉测评结果发布!
中文大模型幻觉测评系列:事实性幻觉测评结果发布! SuperCLUE-Fact是专门评估大语言模型在中文短问答中识别和应对事实性幻觉的测试基准。测评任务包括知识、常识、对抗性和上下文幻觉。# 榜单概览...
没有更多内容













