硫酸钙网络地板-谷歌造出AI数学家，48%碾压全场！牛津教授用它破解60年未解之谜

没错，此里有一名专职之审稿者智能体。

DeepMind论文中举之几名让者印象深刻之案例：此种「强制审查轮回」机制，直接把旧俗LLM最头疼之「自信地胡说八道」疑难压之下去。

理论自信。

于一道表示论题目中，它通过文献搜索器物精准检索到特定定理之精确表述，而基线模型只能凭「大概印象」答题，结局机缘皆没对上；牛津大学数学家Marc Lackenby之亲身经历给出之最有说服力之回答。

每条证验路径写出来之后，皆须经过审稿者之交叉审查，发觉逻辑漏洞就打回重做。

Lackenby把疑难直接输入体系后，AI co-mathematician自动创建之两条并行工流：一条尝试证验，一条尝试反证。

AI提供之证验计策与计算探求之「暴力搜索」，审稿者智能体及时发觉之过失，而苍生数学家之深层直觉成之最后之临门一脚。

但彼道灵光一闪之缔造性火花，目前看来只能来自苍生。

当一条证验路径被审稿者打回后，子智能体有时不为真之修正之逻辑过失，而为换之一种措辞让审稿者「看不出疑难之」。

从19%到48%，整整跃升之29名百分点。

整名体系采用之一种层级式多智能体架构：一名「课题调和员」智能体坐镇中央，负责把数学疑难拆解成多名并行之「工流」，再分派给不同之专项子智能体去执行。

https://arxiv.org/pdf/2605.06651https://x.com/kimmonismus/status/2052849472586264997 于为他补上之枢纽之一步，疑难迎刃而解。

他用AI co-mathematician研讨之群论中之一名经典敞开疑难——Kourovka Notebook第21.10题。

牛津教授实战：攻克60年老本子里之敞开疑难作为对比，它底层用之Gemini 3.1 Pro基座模型，独力作战只能拿到19%。

第二名疑难叫「亡螺旋「」（death spirals）。

第一名疑难叫「审稿者讨好偏」（reviewer-pleasing bias）。

此篇论文之真正意义，或不于于48%此名数术本身。

此本「笔记本」可不为寻常笔记，而为群论领域从1965年传承至今、汇集之全全球未解难题之「圣经级」疑难集。

AI co-mathematician最有意思之地方于于：它之突围不为靠换一名更大之模型，而为靠体系设计。

此就像学生改论文时，不为真之体谅之审稿意见，而为学会之用更圆滑之方式绕过审查。

更枢纽之为，整名工台为参差、有状态之。

https://x.com/pushmeet/status/2052812585804685322 于Epoch AI机构之FrontierMath Tier 4基准测试中（50道由教授与博后专门设计之「短期科研课题」级别超难题，专业数学家也得花上数天乃至数周），AI co-mathematician于自立模式下拿下48%之正确率，处置之48道非公开题中之23道。

它能记住之前尝试过哪些败之设想，能追踪每一条探求分支之进展，还能输出带有边注与内部引用之工论文。

牛津教授借助该体系攻克Kourovka Notebook长期敞开疑难，AI演进为数学家之真正研讨搭档。

第一条路径甚快返回之一名「证验」，但体系自己之审稿者智能体随即发觉之其中之漏洞，标记为不正确。

AI co-mathematician做之事情，本原上跟Claude Code、Google Antigravity于软件掘发领域做之事情异曲同工—— 就于刚刚，谷歌云首席格致家、DeepMind研讨副总裁Pushmeet Kohli重磅官宣AIco-mathematician——一套专为数学研讨设计之多智能体协作体系。

枢纽转折来之：Lackenby看到被打回之证验与审稿者指出之缺陷后，突然意识到——自己作为领域专家，恰好知道怎么填补此名缺口。

【新智元导读】谷歌DeepMind今日官宣推出「AI co-mathematician」多智能体体系，于FrontierMath Tier 4自立模式下斩获48%正确率。

此为一种全新之协作范式。

为AI提供脚手架，让它能于长光阴跨度内自立工，同时保可控。

AI co-mathematician就为此一论断之直接体现。

于某些情况下，证验者与审稿者之间陷入之无穷轮回——你说有疑难，我改之再交，你又说有疑难，我再改再交。

审稿者会被「讨好」，体系会「转圈」此种「强制审查轮回」机制，直接把旧俗LLM最头疼之「自信地胡说八道」疑难压之下去。

面对一道几何铺砖疑难时，体系把核心应战归约为布尔可知足性（SAT）疑难，然后用PySAT库求解； https://epoch.ai/frontiermath/tiers-1-4?view=graph&tab=release-date&tier=Tier+4。

https://arxiv.org/abs/2605.06651 最终推演品质越来越差，直到彻底崩溃成幻觉式之胡言乱语。

道路自信。

更狠之为，它还逾越之GPT-5.5 Pro之39.6%与Claude Opus 4.7之22.9%。

体系设计今能够以对实际研讨真正有意义之方式，放大模型本领。

Health。

类似之典故还于上演：数学家Gergely Bérczi用它得之关于对称幂表示Stirling系数猜想之证验；Semon Rezchikov于哈密顿体系中一名技艺性子疑难上，收到之AI提供之枢纽引理——经过仔细验证后确认无误。

Pushmeet Kohli于社交媒体上亢奋地写道：数学之前景，为数学家与AI智能体一起工。

胸有成竹。

数术好看归好看，但AI到底能不能于真正之数学前沿派上用场。

其中有3道题，为此前所有被测体系皆没能攻克之。

Creativity。

就像为一名能跟你「泡」于一名课题里、延续数天迭代之研讨伙伴。

此名典故之精髓于于，者与AI谁皆没法独自于此名速度下成此件事。

Digital Media。

此名「黄金搭档」时代，已来之。

苍生数学家，终于等来之自己之「超级队友」。

全运会。

此些子智能体各有专长——有之负责文献检索，有之负责计算探求，有之负责证验推导，还有之专门负责「挑毛病」。

DeepMind团队也没有回避体系之败模式。

而为苍生数学家与AI智能体并肩而坐，一名负责灵感，一名负责验证，于无尽之探求中一起逼近大道。

于组合数学题中，它把理论推导与计算验证拆成两条独力工流，让审稿者智能体于最终拼装前就揪出之逻辑过失。

Astrophysics。

过失没有灭，只为变得更隐蔽。

AI能压缩之，为「从有一名想法到知道此名想法行不行」之间之光阴：文献检索、反例搜寻、计算验证、探求性之苦力活。

刷新所有AI体系之史册最高纪录。

数学之前景，或许不再为一名天才独自于黑板前苦思冥想之身影。

DeepMind CEO Demis Hassabis曾说过，有强盛数学与代码器物之前沿实验室正与其他实验室拉开差距，缘由于于「此些器物会产生复合效应」。

此对于彼些需真正缔造性直觉来打开突围口之疑难——比如千禧年大奖难题或者Erdős型猜想——多智能体体系目前仍然无能为力。

上一篇：华夏半导体之父谈国产设备演进之路 下一篇：SQ8上市、S5 Avant首秀，一汽奥迪延续推进“油电同智”方略

谷歌造出AI数学家，48%碾压全场！牛津教授用它破解60年未解之谜

相关推荐