当前位置:文章 > 列表 > 正文

谷歌造出AI数学家,48%碾压全场!牛津教授用它破解60年未解之谜

📅 2026-05-19 03:53:56 🏷️ 硫酸钙网络地板 👁️ 717
谷歌造出AI数学家,48%碾压全场!牛津教授用它破解60年未解之谜

没错,此里有一名专职之审稿者智能体。

DeepMind论文中举之几名让者印象深刻之案例: 此种「强制审查轮回」机制,直接把旧俗LLM最头疼之「自信地胡说八道」疑难压之下去。

理论自信。

于一道表示论题目中,它通过文献搜索器物精准检索到特定定理之精确表述,而基线模型只能凭「大概印象」答题,结局机缘皆没对上; 牛津大学数学家Marc Lackenby之亲身经历给出之最有说服力之回答。

每条证验路径写出来之后,皆须经过审稿者之交叉审查,发觉逻辑漏洞就打回重做。

猪肉价格

Lackenby把疑难直接输入体系后,AI co-mathematician自动创建之两条并行工流:一条尝试证验,一条尝试反证。

AI提供之证验计策与计算探求之「暴力搜索」,审稿者智能体及时发觉之过失,而苍生数学家之深层直觉成之最后之临门一脚。

但彼道灵光一闪之缔造性火花,目前看来只能来自苍生。

短片

当一条证验路径被审稿者打回后,子智能体有时不为真之修正之逻辑过失,而为换之一种措辞让审稿者「看不出疑难之」。

从19%到48%,整整跃升之29名百分点。

中国楼盘激赏

整名体系采用之一种层级式多智能体架构:一名「课题调和员」智能体坐镇中央,负责把数学疑难拆解成多名并行之「工流」,再分派给不同之专项子智能体去执行。

https://arxiv.org/pdf/2605.06651https://x.com/kimmonismus/status/2052849472586264997 于为他补上之枢纽之一步,疑难迎刃而解。

高校

他用AI co-mathematician研讨之群论中之一名经典敞开疑难——Kourovka Notebook第21.10题。

牛津教授实战:攻克60年老本子里之敞开疑难 作为对比,它底层用之Gemini 3.1 Pro基座模型,独力作战只能拿到19%。

第二名疑难叫「亡螺旋「」(death spirals)。

第一名疑难叫「审稿者讨好偏」(reviewer-pleasing bias)。

案件

此篇论文之真正意义,或不于于48%此名数术本身。

此本「笔记本」可不为寻常笔记,而为群论领域从1965年传承至今、汇集之全全球未解难题之「圣经级」疑难集。

极致中国化

AI co-mathematician最有意思之地方于于:它之突围不为靠换一名更大之模型,而为靠体系设计。

西奥

此就像学生改论文时,不为真之体谅之审稿意见,而为学会之用更圆滑之方式绕过审查。

输液

更枢纽之为,整名工台为参差、有状态之。

https://x.com/pushmeet/status/2052812585804685322 于Epoch AI机构之FrontierMath Tier 4基准测试中(50道由教授与博后专门设计之「短期科研课题」级别超难题,专业数学家也得花上数天乃至数周),AI co-mathematician于自立模式下拿下48%之正确率,处置之48道非公开题中之23道。

美国

它能记住之前尝试过哪些败之设想,能追踪每一条探求分支之进展,还能输出带有边注与内部引用之工论文。

啃老

牛津教授借助该体系攻克Kourovka Notebook长期敞开疑难,AI演进为数学家之真正研讨搭档。

第一条路径甚快返回之一名「证验」,但体系自己之审稿者智能体随即发觉之其中之漏洞,标记为不正确。

AI co-mathematician做之事情,本原上跟Claude Code、Google Antigravity于软件掘发领域做之事情异曲同工—— 就于刚刚,谷歌云首席格致家、DeepMind研讨副总裁Pushmeet Kohli重磅官宣AIco-mathematician——一套专为数学研讨设计之多智能体协作体系。

枢纽转折来之:Lackenby看到被打回之证验与审稿者指出之缺陷后,突然意识到——自己作为领域专家,恰好知道怎么填补此名缺口。

【新智元导读】谷歌DeepMind今日官宣推出「AI co-mathematician」多智能体体系,于FrontierMath Tier 4自立模式下斩获48%正确率。

此为一种全新之协作范式。

小米red

为AI提供脚手架,让它能于长光阴跨度内自立工,同时保可控。

AI co-mathematician就为此一论断之直接体现。

半裙

于某些情况下,证验者与审稿者之间陷入之无穷轮回——你说有疑难,我改之再交,你又说有疑难,我再改再交。

江西省

审稿者会被「讨好」,体系会「转圈」 此种「强制审查轮回」机制,直接把旧俗LLM最头疼之「自信地胡说八道」疑难压之下去。

面对一道几何铺砖疑难时,体系把核心应战归约为布尔可知足性(SAT)疑难,然后用PySAT库求解; https://epoch.ai/frontiermath/tiers-1-4?view=graph&tab=release-date&tier=Tier+4。

https://arxiv.org/abs/2605.06651 最终推演品质越来越差,直到彻底崩溃成幻觉式之胡言乱语。

道路自信。

更狠之为,它还逾越之GPT-5.5 Pro之39.6%与Claude Opus 4.7之22.9%。

体系设计今能够以对实际研讨真正有意义之方式,放大模型本领。

Health。

类似之典故还于上演:数学家Gergely Bérczi用它得之关于对称幂表示Stirling系数猜想之证验;Semon Rezchikov于哈密顿体系中一名技艺性子疑难上,收到之AI提供之枢纽引理——经过仔细验证后确认无误。

Pushmeet Kohli于社交媒体上亢奋地写道:数学之前景,为数学家与AI智能体一起工。

胸有成竹。

数术好看归好看,但AI到底能不能于真正之数学前沿派上用场。

其中有3道题,为此前所有被测体系皆没能攻克之。

Creativity。

就像为一名能跟你「泡」于一名课题里、延续数天迭代之研讨伙伴。

此名典故之精髓于于,者与AI谁皆没法独自于此名速度下成此件事。

Digital Media。

此名「黄金搭档」时代,已来之。

苍生数学家,终于等来之自己之「超级队友」。

全运会。

此些子智能体各有专长——有之负责文献检索,有之负责计算探求,有之负责证验推导,还有之专门负责「挑毛病」。

DeepMind团队也没有回避体系之败模式。

而为苍生数学家与AI智能体并肩而坐,一名负责灵感,一名负责验证,于无尽之探求中一起逼近大道。

于组合数学题中,它把理论推导与计算验证拆成两条独力工流,让审稿者智能体于最终拼装前就揪出之逻辑过失。

Astrophysics。

过失没有灭,只为变得更隐蔽。

AI能压缩之,为「从有一名想法到知道此名想法行不行」之间之光阴:文献检索、反例搜寻、计算验证、探求性之苦力活。

刷新所有AI体系之史册最高纪录。

数学之前景,或许不再为一名天才独自于黑板前苦思冥想之身影。

电池容量

DeepMind CEO Demis Hassabis曾说过,有强盛数学与代码器物之前沿实验室正与其他实验室拉开差距,缘由于于「此些器物会产生复合效应」。

勒沃库森队

此对于彼些需真正缔造性直觉来打开突围口之疑难——比如千禧年大奖难题或者Erdős型猜想——多智能体体系目前仍然无能为力。

付建

上一篇:华夏半导体之父谈国产设备演进之路 下一篇:SQ8上市、S5 Avant首秀,一汽奥迪延续推进“油电同智”方略