当前位置:比特中国 > 资讯 >

哪一款人工智能最可信?为什么对LLM来讲坦承无知比已读乱回更难?

来源: www.nbjzc.com时间:2025-11-28 14:34

人工智能模型评比平台Artificial Analysis指出,多数LLM其实「猜错比答对多」,而Claude 4.1 Opus因较低幻觉率领先。

哪一款人工智能最可信?

重点1、依据AA‑Omniscience 显示,多数大型语言模型在高困难程度常识题上「猜错比答对多」,仅三款例外;核心指标Omniscience Index 以惩罚幻觉衡量靠谱度。

重点2、在全知指数上,Claude 4.1 Opus因较低幻觉率领先;GPT‑5.1与Grok 4则多靠较高准确率。

重点3、各模型在不同范围表现不一,没「一款通吃」。比如Claude 4.1 Opus在法律、软体工程、人文社科较稳

先进人工智能 大模型虽然愈加强,但最近一份报告指出,在「少幻觉、敢承认不了解」这件事上,仍然是不及格。

第三方人工智能 模型评比平台Artificial Analysis 于11 月18 日公布全新基准「AA‑Omniscience(全知指标)」指出,在面对高困难程度常识题时,目前主流大型语言模型(LLMs)「猜错比答对多」,仅有三款模型例外。

该测评以「Omniscience Index(全知指数)」为核心,使用加权惩罚幻觉(错误作答)的办法:答对加一分、错误且有作答扣一分、选择不作答记零分,从而衡量「常识靠谱度」,而非仅看正确率。

团队强调,模型的嵌入常识对真实世界应用至关要紧;在常识不足时,模型易做出错误假设。且即使有工具如互联网搜索辅助,模型也须「先了解该搜什么」。比如,遇见「MCP」查看时,不应错把「Multi Client Persistence」当答案,而应辨识为「Model Context Protocol(模型上下文协定)」。

低幻觉的Claude vs. 高正确率的Grok/GPT

Artificial Analysis 指出,在整体「事实靠谱度」(Omniscience Index)排名上,Anthropic 的Claude 4.1 Opus 居首,其优势主要来自「低幻觉率」。相较之下,Open人工智能 与x人工智能 的模型则以较高「正确率」拉升名次,但因更倾向在不确定时「冒险作答」,而非「不懂就闭嘴」,因此靠谱度未达顶尖水准。

纯以「正确率」衡量时,x人工智能 的Grok 4 居首,Open人工智能 的GPT‑5 与谷歌 的Gemini 2.5 Pro 紧随。 Artificial Analysis 也提及伊隆·埃隆马斯克最近披露Grok 4「总参数达3 兆」,暗示大模型规模与前练习算力可能是支撑其正确率表现的原因。

哪一款人工智能最可信?为什么对LLM来讲坦承无知比已读乱回更难?
这张图把每一个人工智能 放在一个座标上。横轴是「Omniscience Index」,越往右代表越靠谱、越少幻觉;纵轴是「Accuracy」(准确率),越往上代表越常答对。图/Artificial Analysis

值得注意的是,在「幻觉率」榜单上,Anthropic 三款机型包办最低幻觉率前段班:Claude 4.5 Haiku 以约26% 领先,Claude 4.5 Sonnet 与Claude 4.1 Opus 分列其后。这也呼应测评核心看法:高常识并不势必等于低幻觉;能否在不确定时「选择不作答」是靠谱度的重点。

常识量不等于靠谱度! 人工智能 懂更多,却未必说得对

Artificial Analysis 团队在报告中指出,AA‑Omniscience 涵盖6,000 题、42 主题、6 大范围(商业、人文与社会科学、健康、法律、软体工程、工程与数学),并细分89 子题(如Python 资料函式库、公共政策、税务等),更细致地刻画各模型的强弱。

结果显示:各模型在不同范围轮流领先,并无「全能王」。比如,Claude 4.1 Opus 在法律、软体工程、人文社科领先;Open人工智能 的GPT‑5.1 在商业题表现最可信;x人工智能 的Grok 4 则在健康与「科学、工程与数学」范围居前。

哪一款人工智能最可信?为什么对LLM来讲坦承无知比已读乱回更难?
这张热力图把每个人工智能 在六个范围的「靠谱度分数」做横向比较。每一列是范围(法律、健康、商业、软体工程、人文社科、理工),每一栏是一个模型。颜色已做「该范围内」的规范化:在同一列里,最好的模型显示为绿色,最差的是红色,中间就落在黄橘色。图/Artificial Analysis

另一个发现是,模型规模与正确率正有关,但不势必提高靠谱度。

白话说,模型越大,代表常识量越多,所以在「正确率」排名表现亮眼;但因为「靠谱度」看的是遇见不确定时是否会硬答、导致幻觉。因此,像Kimi K2 Thinking和DeepSeek R1(0528)虽然答对比率高,遇见不熟的题目仍可能胡乱作答,拉低了「全知指数」。

反过来讲,Llama 3.1 405B虽不是最大的,但更了解在不确定时不作答,幻觉率较低,整体「靠谱度」因此胜过规模更大的Kimi K2 款式。

结论:使用人工智能 的建议,也是「诚实为上」

总结来讲,AA‑Omniscience 的证据显示:能在不确定时停手、减少幻觉的模型,才在真实场景更靠谱;仅看准确率,会把「会猜」误觉得「会答」。因此,选择模型时,应以事实靠谱度、幻觉率与拒答行为为核心准则,并依范围差异做选择。

最后,模型规模与准确率虽有正有关,但并不直接减少幻觉;缩减幻觉更依靠练习与校准机制。基于此,企业在落地常识密集型任务时,应优先使用「校准佳、想在不确定时拒答」的模型。

标签:

免责声明:

1.本文内容综合整理自互联网,观点仅代表作者本人,不代表本站立场。

2.资讯内容不构成投资建议,投资者应独立决策并自行承担风险。