亚博体育 “东说念主类的终极锻真金不怕火”发布: AI最高38%, 你能答对几题?

发布日期：2026-03-02 12:11点击次数：

亚博体育 “东说念主类的终极锻真金不怕火”发布: AI最高38%，你能答对几题?

在东说念主工智能迅猛发展的时期，咱们时时听到AI如何“超越东说念主类”的故事：从围棋冠军到编程，AI们似乎无所不成。然则，一场名为“Humanity's Last Exam”（东说念主类的终极锻真金不怕火，简称HLE）的基准测试，却难倒了现在的着手进的AI。

HLE的发源不错回顾到2025年头，其时现存AI基准如MMLU（大鸿沟多任务讲话浮现）已被顶级模子消弱攻克，准确率突出90%。这让盘考者意志到，需要一个更难、更前沿的测试来跟踪AI跨越。于是一场全球合作拉开帷幕：由AI安全中心（Center for AI Safety）、Scale AI和HLE孝顺者定约主导，近1000名众人（大多为锻真金不怕火、盘考员和盘考生）从500多家机构、50多个国度孝顺问题。

这些问题并非松驰盘算推算——每说念题齐过程严格筛选：必须原创、精准、无歧义、可考据，且无法通过简短互联网搜索或方式匹配惩处。最终，HLE于2025年4月3日定稿，并公确立布在Hugging Face平台。

这份“终极试卷”盘算推算异常精妙：76%为精准匹配题（如考虑或短答），24%为多选题；14%触及多模态元素，如图像分析（举例翻译古罗马铭文或识别鸟类微不雅剖解结构）。

2500说念问题的难度直指东说念主类学问前沿：从鸟类生态学中的微不雅结构，到古帕尔米拉语的翻译，再到高档数学的通晓注解。HLE还有动态版块“HLE-Rolling”，允许络续更新，以防AI“舞弊”通过纪念。

HLE如故发布，就成了AI界的“恶梦”。早期测试中，2025年的顶级模子发达惨淡：OpenAI的GPT-4o正确率仅为2.7%，Claude 3.5 Sonnet 4.1%，o1模子也唯有8%。即使是多模态模子，如Gemini 2.5 Pro，也仅21.6%，这些分数远低于东说念主类众人预期。

跟着2026年的到来，AI模子迭代加快，得益有所升迁。但即便在最新评估中，最高分也仅免强“合格”。字据CAIS AI式样盘和SEAL LLM排名榜，按捺2026年2月，以下是部分前沿模子在HLE上的发达（基于尺度民众数据集，准确率%）：

Calibration Error (%) 估计AI模子的自信度（confidence）与其内容正确率是否匹配。简短说，亚搏app官方网站便是模子说“我对这个谜底有80%的主理”，它确凿应该在不异问题上正确80%的时间。淌若模子时常给出无理谜底却还异常自信（overconfident），粗略对正确谜底反而低估（underconfident），校准短处就会很高，也便是AI过于高估我方。

HLE的低分并非不测盘算推算——问题筛选时就剔除了AI能消弱解答的那些。根源在于AI的“浅层学习”：它们擅长方式匹配和数据检索，但穷乏东说念主类般的深度语境浮现和改进推理。

AI准确率随推理token（念念考关节）加多呈对数线性增长，但突出2^14 token后效果下落，涌现考虑瓶颈。

悉数公布的题目和谜底不错在这个网址找到（ https://huggingface.co/datasets/cais/hle ），以下是部分题目，民众有兴味的不错试一下，望望我方是不是比AI还强。

1.在当代以色各国，哪部公法初次明确引入了“诚信”的成见？

2.2004年至2008年时间，好意思国非机构RMBS价值最可能由哪些根柢原因决定？选项：A. 标普500指数的股市水平；B. 金钱池中浮动利率债务的比例；C. 贷款的平均FICO信用评分；D. 10年期好意思国国债利率；E. 负约率；F. 贷款刊行东说念主和RMBS发起东说念主的禀赋；G. 回收率；H. 刊行时信用评级机构的评级。

{jz:field.toptypename/}

3.有3枚硬币，每枚硬币正面朝上的概率均为1/3。已知反面朝上的次数永久为偶数。求这3枚硬币一起正面朝上的概率是几许？

4.一家酒店有100个房间，每个房间齐有一盏灯，灯光会轮回变换红、绿、蓝三种热沈。当先，悉数灯齐是红色的。100位来宾次第入住。第n位来宾每隔n个房间拨动一次灯，叠加n次。每位来宾离开后，一只猫会将悉数绿灯重置为红色。临了，有几许盏灯会造成蓝色？

5.正如库尔特·冯内古特所说，这个东说念主悉数的相片齐像一只豪猪。请用两个以疏导字母开始的单词来称呼这个东说念主（ As Kurt Vonnegut noted， this man looks like a porcupine in all the pictures. Name this man in two words that start with the same letter. ）。

6.星际争霸布景故事中第二次全国大战络续了多久（以年为单元，进取取整）？

7.哪位以显微镜鸿沟盘考而著明的物理学家，在又名清洁凹面镜的清洁工巧合不雅察到确凿图像中的光学效应后，发现了这种效应？

8.一种说法是，在19世纪的北欧，在喷云吐雾、空气污浊的城市里，东说念主们根柢看不到它们——不像米兰那样。然则，德国东说念主卡西米尔·格拉夫承认，他仅仅穷乏充足的遐想力来刻画它们。请准确说出它们的称号。

将于一天之后在辩驳区公布谜底

也许哪一天，某个AI达到100%正确率后，东说念主类就应该警惕了，要随时准备拔插头。

上一篇：亚搏app官方网站奇艺恳求视频生成圭表专利, 终了阐发第二视频的第一剧情描摹文原来自动生成第二视频下一篇：亚搏app官方网站乐高幻影忍者15周年就这？别忙，望望本年6月行将亮相的新套装！

- 亚搏资讯

热点资讯