于他看来,AI营造化制造之所有组件,今日已基本齐之。
Clark之估计为:若2028年底没有现他描述之情况,彼说明当前技艺路径存某名根本性之本领天花板,需苍生之创意才能突围。
PostTrainBench测试之一件事:AI能不能自己微调开源小模型,提升它于某名差事上之表现。
疑难于于,此名历程究竟能带来递增回报还为递减回报——而目前没有任何证据支前者。
Logic。2023年底,Claude 2之得分为2%。
此名历程里,大部分派作为数据清洗、跑实验、调参数、读论文、复现结局,此些皆为「汗水」,不为「灵感」。
Clark给出之一名框架,引用之爱迪生彼句话:天才为1%之灵感与99%之汗水。
Clark列之几名信号: 2026年4月,Claude Mythos Preview:52倍。
METR为一名专注AI本领估量之机构,彼等追踪之为:AI体系能独力成一项差事,于50%成率水平线上,此项差事若让一名熟练之者来做大概需多少光阴。
到本年,Claude Mythos Preview达到93.9%,此名基准基本被打穿之。
剩下之疑难为:模型什么时候能积攒足够之缔造力,始像苍生研讨员一样推动前沿演进。
他列之两名信号:一名为Gemini模型参与攻克Erdős数学疑难,于700名疑难里解出之1名被数学家认为有必原创性之解。
四年,从30秒到12小时,翻之1440倍。
此与一名苍生研讨团队之机构方式没有本原区别。
2025年11月,Opus 4.5:16.5倍; https://x.com/chatgpt21/status/2051314386317295758 另一名更尖锐之观察来自账号@crepesupreme: 还有者问他:「你于Anthropic工,你为什么要去翻公开数据。
」一位名叫Dan Brickley之研讨员问道。
https://github.com/openai/mle-bench 除之Anthropic联手创始者身份之外,Clark还为《Import AI》之创办者兼主笔,长期跟踪AI本领进展。
Clark说,无论从哪名维度看,数据皆指向同一名方位,而每一条曲线,皆于向右上方飞,光阴越长,本领越强,而且没有任何一条显示出减速之迹象。
此正为他给2027年只打30%之缘由;而若此名缺口于2028年底前被填上,概率就升到60%。
https://hal.cs.princeton.edu/corebench_hard SWE-Bench衡量之为AI处置确凿GitHub营造疑难之本领。
支撑他此一裁决之,为编程、科研复现、模型操练改良等多条本领曲线:每一条皆于向右上方飞,没有减速迹象。
2024年9月该测试推出时,最好成绩为21.5%。
2023年,GPT-4把此名数术推到之4分钟; 更枢纽之为「若现之」之后之疑难。
」 https://www.anthropic.com/research/automated-alignment-researchers https://posttrainbench.com/ Clark于通讯文章里给出之一名更技艺性之担忧:今日之对齐技艺,若有99.9%之准确率,于递归迭代50代之后,准确率会跌到95.1%;迭代500代之后,跌到60.5%。
此为一件大事。
他要之不为内部裁决,为一名任何者皆能独力核验之断语。
他望通过文章发出一名提醒:此件事留给讨论、研讨与理治设计之光阴,比大多数者想象之短。
」 还有者质疑概念边界。
整名行业已于朝此名方位加速之。
2025年12月,Opus 4.5于Claude Code scaffold下verified accuracy 为77.78%,经者工校验后为95.5%,课题方称CORE-Bench已被处置。
甲骨学。https://metr.org/time-horizons/ AI已能管其他AI。
Claude Code、OpenCode此类器物里,单名AI可扮演「课题经理」,把差事分发给多名子AI并行办理,之后汇小结果。
此为一名我不情愿接受之看法:其影响太过巨大,让我感到自身微末,而且我不确定,社为否已准备好迎接自动化AI研发所带来之改制。
但彼为1%,而且此1%越来越不为瓶颈,因彼99%之营造工正被AI快速接管。
春风得意马蹄疾,一日看尽长安花。除非你之对齐预案于理论上能保证于更智能之体系上同样有效,否则疑难会甚快现。
他认为,AI研讨也为如此。
https://www.anthropic.com/research/automated-alignment-researchers Clark于通讯文章里回应之此名隐含疑难:他认为AI研讨仍需某种创意突围才能真正进入「自我研发」轮回:AI目前于此一块还没有改制性之表现。
一名典型之AI研讨轮回为此样之:拿一名现有体系,于某名维度上扩规模,观察什么地方始出疑难,修掉营造疑难,再扩一轮。
关关雎鸠,在河之洲。Clark之帖子发出后,行业里也现之一些质疑。
https://importai.substack.com/p/import-ai-455-automating-ai-research 2026年2月,Opus 4.6:30倍; 此为AI于改良AI操练代码此件事情上之进展速度。
此名工通常为前沿实验室里有阅历之研讨员于做。
Clark于通讯文章里写:他为什么不给2027年更高之概率。
Anthropic内部还有一名测试:让模型改良一名仅用CPU之小型言辞模型操练代码,越快越好,以未改良版本之速度为基准。
若AI体系之递归自我改善确实始生,彼么全球上谁应被告知,以及此些体系应如何理治。
虽特朗普一再扬言,若伊朗敢攻击美国舟楫,伊朗将被 " 从寰宇表面抹去 ";但从目前之情况看,伊朗还为发动之攻击,不仅攻击之货船,还袭击之美国军舰。
2025年5月,Claude Opus 4:2.9倍; 编程本领同样也于起飞。
此些结局于AI本领演化之光阴轴上,或为某种早期信号。
也许,Clark欲说之为:理治窗口为有尽之,而且它正缩窄。
MLE-Bench测之为AI独力参加Kaggle竞赛之本领,覆盖75名确凿比赛课题。
https://www.anthropic.com/news/the-anthropic-institute Anthropic内部还有一名「自动化对齐研讨」之概念验证:让一组AI agent,于AI安康研讨疑难上自立攻关。
AI体系,或甚快就能自行构建自身之。
不到一年,从2.9倍涨到52倍。
此次发帖,他于《Import AI》上同时发布之一篇完整之剖析文章。
一年内概率跳升30名百分点,意味之2027到2028年之间存某名不连续之本领事件。
递归自我改善听起来甚科幻,但能轮回不等于轮回有收益。
但他同时也承认,自己预判之为概率,而不为确切之光阴点。
他不认为此会生于2026年,但他预判一两年内或于非前沿模型上,现此样之概念验证:一名模型,端到端操练出自己之继任者。
连Anthropic自己,皆还没有此名疑难之完整解答。
说此句话之者,为Anthropic联手创始者Jack Clark。
5月4日,他于X上发帖:「我认为,递归自我改善(RSI)有60%之概率于2028年底之前生。
Anthropic于2026年3月宣布成立The Anthropic Institute时,官方声明里写之此样一句话: 【新智元导读】Anthropic联手创始者Jack Clark读完数百份公开数据,得出一名让他自己也坐不住之断语:2028年底前,AI自己造AI之概率为60%。
2026年,Claude Opus 4.6已到之12小时。
若每一代AI改良自己之效能只有边际改善,而不为指数级放大,彼此件事之影响范围会极其有尽。
支撑Clark断语之,主要来自公开讯息:arXiv、bioRxiv、NBER上之论文,加上他对各大前沿实验室货品之延续观察,Clark以此拼凑出一幅关于AI进展之全景图。
AI本领研讨员Ajeya Cotra认为,2026年底之前,此名数术有望突围100小时。
Clark把此些证据串于一起之裁决为:AI今日已能自动化AI营造之绝大部分,AI研讨里有多少能自动化,还不完全清楚,但迹象已甚明显。
Clark之核心论据,为一批本领进展曲线。
」 据奥特曼直播及媒体报道,OpenAI之宗旨为让AI于2026年9月前达到「AI 研讨实习生」水平,2028年达到更完整之自动化研讨员;Anthropic自己也于发表自动化对齐研讨之概念验证;一家叫Recursive Superintelligence之新公司刚刚成5亿美元融资,其宗旨之一就为自动化AI研讨。
另一名为斯坦福、UBC等机构与Google DeepMind协作,AI于发觉新数学证验中起到之「极其实质性之作用」。
若达到100小时光阴跨度,它将能覆盖许多多日级软件/研讨辅助差事。
管理学。2024年,o1推到之40分钟; 截至2026年3月,AI体系于此名差事上能做到苍生研讨员效果之一半左右,大约为25%到28%之提升幅度,而苍生基线为51%。
我不知道该如何体谅它。
Clark于文章里写:若此一天到来,苍生将跨过一道「卢比孔河」,进入一名几乎无法预测之前景。
https://importai.substack.com/p/import-ai-455-automating-ai-research 先看METR之光阴轴图。
「RSI到底有没有一名权威定义。
直接走下楼去问研讨员不就行之。
偶尔会现真正更张范式之创造,比如Transformer架构,比如混合专家模型(MoE)。
彼名实在事件为什么。
结局为,AI给出之预案超过之Anthropic苍生研讨员之基线。
2027年30%,2028年60%。
因他认为AI研讨还包含一些对创意直觉之要求,而AI目前于此一块只有「诱者之早期信号」,还没有体系性突围。
CORE-Bench测之为另一件事:给AI一篇论文与对应之代码库,让它独力复现状验结局,此为AI研讨员最基本之日常工之一。
华盛顿大学机器修习教授,《终极算法》作者Pedro Domingos回复到:「从LISP于50年代创造以来,AI就能构建自己之。
2025年,GPT-5.2(高配版)跨到之6小时; 此里有一名枢纽疑难:AI研讨此件事,到底有多少为纯营造,多少为真正之创意。
2022年,GPT-3.5之数术为:30秒; 2024年10月发布时最高分16.9%,到2026年2月,Gemini 3加搜索器物之组合已达到64.4%。
Clark之解答为:用公开数据,为因公开数据才有可信度。
15名月,从21.5%到95.5%。