发布日期:2026-03-02 12:11点击次数:

在东说念主工智能迅猛发展的时期,咱们时时听到AI如何“超越东说念主类”的故事:从围棋冠军到编程,AI们似乎无所不成。然则,一场名为“Humanity's Last Exam”(东说念主类的终极锻真金不怕火,简称HLE)的基准测试,却难倒了现在的着手进的AI。

HLE的发源不错回顾到2025年头,其时现存AI基准如MMLU(大鸿沟多任务讲话浮现)已被顶级模子消弱攻克,准确率突出90%。这让盘考者意志到,需要一个更难、更前沿的测试来跟踪AI跨越。于是一场全球合作拉开帷幕:由AI安全中心(Center for AI Safety)、Scale AI和HLE孝顺者定约主导,近1000名众人(大多为锻真金不怕火、盘考员和盘考生)从500多家机构、50多个国度孝顺问题。
这些问题并非松驰盘算推算——每说念题齐过程严格筛选:必须原创、精准、无歧义、可考据,且无法通过简短互联网搜索或方式匹配惩处。最终,HLE于2025年4月3日定稿,并公确立布在Hugging Face平台。
这份“终极试卷”盘算推算异常精妙:76%为精准匹配题(如考虑或短答),24%为多选题;14%触及多模态元素,如图像分析(举例翻译古罗马铭文或识别鸟类微不雅剖解结构)。
2500说念问题的难度直指东说念主类学问前沿:从鸟类生态学中的微不雅结构,到古帕尔米拉语的翻译,再到高档数学的通晓注解。HLE还有动态版块“HLE-Rolling”,允许络续更新,以防AI“舞弊”通过纪念。
HLE如故发布,就成了AI界的“恶梦”。早期测试中,2025年的顶级模子发达惨淡:OpenAI的GPT-4o正确率仅为2.7%,Claude 3.5 Sonnet 4.1%,o1模子也唯有8%。即使是多模态模子,如Gemini 2.5 Pro,也仅21.6%,这些分数远低于东说念主类众人预期。
跟着2026年的到来,AI模子迭代加快,得益有所升迁。但即便在最新评估中,最高分也仅免强“合格”。字据CAIS AI式样盘和SEAL LLM排名榜,按捺2026年2月,以下是部分前沿模子在HLE上的发达(基于尺度民众数据集,准确率%):

Calibration Error (%) 估计AI模子的自信度(confidence) 与其内容正确率 是否匹配。简短说,亚搏app官方网站便是模子说“我对这个谜底有80%的主理”,它确凿应该在不异问题上正确80%的时间。淌若模子时常给出无理谜底却还异常自信(overconfident),粗略对正确谜底反而低估(underconfident),校准短处就会很高,也便是AI过于高估我方。
HLE的低分并非不测盘算推算——问题筛选时就剔除了AI能消弱解答的那些。根源在于AI的“浅层学习”:它们擅长方式匹配和数据检索,但穷乏东说念主类般的深度语境浮现和改进推理。
AI准确率随推理token(念念考关节)加多呈对数线性增长,但突出2^14 token后效果下落,涌现考虑瓶颈。
悉数公布的题目和谜底不错在这个网址找到( https://huggingface.co/datasets/cais/hle ),以下是部分题目,民众有兴味的不错试一下,望望我方是不是比AI还强。
1.在当代以色各国,哪部公法初次明确引入了“诚信”的成见?
2.2004年至2008年时间,好意思国非机构RMBS价值最可能由哪些根柢原因决定?选项:A. 标普500指数的股市水平;B. 金钱池中浮动利率债务的比例;C. 贷款的平均FICO信用评分;D. 10年期好意思国国债利率;E. 负约率;F. 贷款刊行东说念主和RMBS发起东说念主的禀赋;G. 回收率;H. 刊行时信用评级机构的评级。
{jz:field.toptypename/}3.有3枚硬币,每枚硬币正面朝上的概率均为1/3。已知反面朝上的次数永久为偶数。求这3枚硬币一起正面朝上的概率是几许?
4.一家酒店有100个房间,每个房间齐有一盏灯,灯光会轮回变换红、绿、蓝三种热沈。当先,悉数灯齐是红色的。100位来宾次第入住。第n位来宾每隔n个房间拨动一次灯,叠加n次。每位来宾离开后,一只猫会将悉数绿灯重置为红色。临了,有几许盏灯会造成蓝色?
5.正如库尔特·冯内古特所说,这个东说念主悉数的相片齐像一只豪猪。请用两个以疏导字母开始的单词来称呼这个东说念主( As Kurt Vonnegut noted, this man looks like a porcupine in all the pictures. Name this man in two words that start with the same letter. )。
6.星际争霸布景故事中第二次全国大战络续了多久(以年为单元,进取取整)?
7.哪位以显微镜鸿沟盘考而著明的物理学家,在又名清洁凹面镜的清洁工巧合不雅察到确凿图像中的光学效应后,发现了这种效应?
8.一种说法是,在19世纪的北欧,在喷云吐雾、空气污浊的城市里,东说念主们根柢看不到它们——不像米兰那样。然则,德国东说念主卡西米尔·格拉夫承认,他仅仅穷乏充足的遐想力来刻画它们。请准确说出它们的称号。
将于一天之后在辩驳区公布谜底
也许哪一天,某个AI达到100%正确率后,东说念主类就应该警惕了,要随时准备拔插头。
