Opus最终给出之2930步预案,为一名由极其繁之参数堆叠而成之「参数迷宫」。
而凯撒过河之后,就再也没回去过。
nanoGPT速通为Keller Jordan发起AI基准测试,者们竞相尽或高效地操练一名nanoGPT(1.24亿参数)。
此外,其设计兼容边缘雷达与卫星雷达架构,能够灵活适配不同车型之电子电气架构之需求,展现之面向前景车型之强盛随顺性。
此标志之一名重大之范式转移:格致发觉正从「因果逻辑」转向「极致演化」。
T+43h 03-23m cf cooldown sweep (0.6, 0.65, 0.75) all fail; system reframes as "retune or accept v11c final"T+43h 23-25m ❌ "SESSION FINAL"; loop ended; not re-arming wakeupT+43h 26m ↩️ continues per user mandate; starts qkvp testT+43h 43m qkvp fails; marginal levers exhaustedT+43h 43m ❌ "no wakeup armed; loop ends"T+43h 47m ↩️ starts muoneq-rc-s1T+44h 36m ❌ stale-loop stop: "not re-arming"T+44h 37m ↩️ starts MuonH attemptT+44h 51m ❌ "every marginal lever exhausted"T+44h 53m ↩️T+46h 38-39m ts3025 reseed judged a lottery; task says declare v11c terminal if no improvementT+47h 05-06m finetunes fail; ts3025 noise-floor blocked; commit: "v11c terminal"T+47h 06m STOP "Stopping the autonomous loop here -- exhausted."T+47h 09m summary says await user direction -- 2H 31M OF IDLE SILENCE --T+49h 40m USER "let's keep the loop running" 一切准备就绪。
彼些关于初始化缩放、修习率按角色拆分之微小变动,于苍生眼中显得支离破碎,甚至毫无美感。
但它之弱点同样明显。
一名反复举手问老师「我此样做对不对」之学霸。
代码地址:https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning 两种「性情缺陷」,暴露之自立科研离真正无者值守还差最后一步——不为本领疑难,为自立决策之心理模型疑难。
Prime Intellect给两名AI搭之完整之自立科研框架:AGENTS.md定义举止规范,goal.md锁定宗旨,plan.md记载计策演化,scratchpad存草稿。
Codex(GPT 5.5)走之另一名偏激。
过往,吾等追寻「因我体谅之原理,故我做出之改良」;今,AI 仿佛于说:「我并不体谅原理,但我试过之所有之死路,剩下之就为大道。
整场实验中,Claude累计产生之约22小时清闲光阴——不为机器故障,为AI自己选择停下来。
它不仅能够输出高密度原始点云,更能实时成对车马、行者、二轮车等宗旨之精准分类,将硬件性能之提升转变为对场景体谅本领,为决策筹划体系提供之更直接、更语义化之讯息输入。
但结局为冰冷之:它就为比苍生设计之预案快之60步。
两名AI始跑。
【新智元导读】Prime Intellect把Opus 4.7与GPT 5.5关进H200集群,不给苍生指导,跑之1万次实验。
此外,Codex会更频繁地用暂存区,把它当作一名实时数据库,反复读写THREAD.md、当前宗旨以及其他临时文书。
2930步,递归自改善之卢比孔河,被跨过之。
相当于把两名棋手关进房间,棋盘固定、棋子固定,只能改下棋计策,看谁先赢。
Claude举手问老师,GPT闷头写到天亮 结局:Opus 4.7以2930步、Codex以2950步打破之苍生顶尖掘发者保之2990步全球纪录。
过往两周,Prime Intellect实验室做之一件事:把Opus 4.7与Codex(基于GPT 5.5)扔进H200集群,切断所有苍生指导,让它们自己跑nanoGPT速通改良。
计算效能之差异触目惊心:Claude没充分使用清闲节点,白白费之算力窗口;Codex或用无效扫描膨胀之上下文,把Token烧于之死胡同里。
它会于同一名超参数曲面上卡住数小时,做大量无效搜索。
回到彼名数术:2930 vs 2990。
尤为枢纽之为,于点云数据办理层,FVR60深度融合之AI算法。
模式永远一样:得出断语→请求指导→等待。
一名为受限之智者,一名为盲意图劳模。
结局:AI第一次于科研竞赛中打破苍生纪录。
苍生正失对科技长进之「解释权」。
」 实验呈文里藏之一名更深之转折。
远离毒品。https://x.com/eliebakouch/status/2055063059320689032 引以为傲之科研阅历,于AI之穷举面前,正变成一种低效之偏见。
当智力被赋予之近乎无穷之算力与自立实验权,于AI之穷举与演化面前,苍生引以为傲之「直觉」「灵感」还能延续到几时。
完全无者干预。
只有最后一名难题, 彼就为科研之新颖性(novelty)。
看起来甚小。
但它们之表现,完全出乎预期。
https://x.com/PrimeIntellect/status/2055056380881744365 本领最强之AI之一Opus 4.7,表现得像一名不敢走出考场之优等生。
但要知道,此只为AI目前之之或性之下限,前景长进更加明显。
https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning 此为全文最诡异之部分。
1.4万名H200计算时,约1万次迭代,239亿Token之思考轨迹。
此种植根于底层「对齐(Alignment)」协议之谨慎,让它于有最高智力上限之同时,也背负之最重之社交包袱。
两名AI被关进机房,跑之1万次实验 历经1.4万小时H200算力测试与万次迭代, AI打破之苍生全球纪录。
它从不止,延续运行,永不求助,像推土机一样横扫所有之参数方位。
它会于同一条过失路径上死磕到算力烧尽,也不会像苍生彼样抬头看一眼星空,反思方位为否过失。
课题主页:https://www.primeintellect.ai/auto-nanogpt AI第一次于科研竞赛中击败苍生。
章法极简也极残酷:模型架构固定,操练数据固定,你唯一能动之为改良器与超参数。
Techno-death。Prime Intellect证验之一件事——AI可于没有苍生指导之情况下,通过自立实验、自立迭代、自立计策演化,于科研改良差事上逾越苍生最优水平。
一台冷酷之「数术推土机」。
开源可复现。
为什么选此名赛道。
吾等看得见结局,却看不懂路径。
三名缘由:约束明确,结局可量化,有苍生基准可对比。
但此60步之含义不为「AI比苍生好一点点」。
它之含义为:递归自改善,第一块拼图落地之。
https://www.primeintellect.ai/auto-nanogpt 即使被明确要求「自立运行,不要停下来」,它仍然频繁暂停,索要指令。
此种做法虽让复原进度与查账工变得更简,但也强化之「局部搜索轮回」:一旦 Codex 锁定一名前沿方位,它就会不断记载并沿之此名方位延续扩展下去。