伦敦国际黄金价格行情-AI自己造AI，概率60%，2028年底前！Anthropic联创坐不住之

于他看来，AI营造化制造之所有组件，今日已基本齐之。

Clark之估计为：若2028年底没有现他描述之情况，彼说明当前技艺路径存某名根本性之本领天花板，需苍生之创意才能突围。

特斯拉。

PostTrainBench测试之一件事：AI能不能自己微调开源小模型，提升它于某名差事上之表现。

疑难于于，此名历程究竟能带来递增回报还为递减回报——而目前没有任何证据支前者。

Logic。

2023年底，Claude 2之得分为2%。

此名历程里，大部分派作为数据清洗、跑实验、调参数、读论文、复现结局，此些皆为「汗水」，不为「灵感」。

Clark给出之一名框架，引用之爱迪生彼句话：天才为1%之灵感与99%之汗水。

Clark列之几名信号： 2026年4月，Claude Mythos Preview：52倍。

METR为一名专注AI本领估量之机构，彼等追踪之为：AI体系能独力成一项差事，于50%成率水平线上，此项差事若让一名熟练之者来做大概需多少光阴。

到本年，Claude Mythos Preview达到93.9%，此名基准基本被打穿之。

剩下之疑难为：模型什么时候能积攒足够之缔造力，始像苍生研讨员一样推动前沿演进。

他列之两名信号：一名为Gemini模型参与攻克Erdős数学疑难，于700名疑难里解出之1名被数学家认为有必原创性之解。

四年，从30秒到12小时，翻之1440倍。

此与一名苍生研讨团队之机构方式没有本原区别。

知我者，谓我心忧；不知我者，谓我何求。

2025年11月，Opus 4.5：16.5倍； https://x.com/chatgpt21/status/2051314386317295758 另一名更尖锐之观察来自账号@crepesupreme：还有者问他：「你于Anthropic工，你为什么要去翻公开数据。

」一位名叫Dan Brickley之研讨员问道。

Biotechnology。

https://github.com/openai/mle-bench 除之Anthropic联手创始者身份之外，Clark还为《Import AI》之创办者兼主笔，长期跟踪AI本领进展。

Clark说，无论从哪名维度看，数据皆指向同一名方位，而每一条曲线，皆于向右上方飞，光阴越长，本领越强，而且没有任何一条显示出减速之迹象。

此正为他给2027年只打30%之缘由；而若此名缺口于2028年底前被填上，概率就升到60%。

https://hal.cs.princeton.edu/corebench_hard SWE-Bench衡量之为AI处置确凿GitHub营造疑难之本领。

支撑他此一裁决之，为编程、科研复现、模型操练改良等多条本领曲线：每一条皆于向右上方飞，没有减速迹象。

2024年9月该测试推出时，最好成绩为21.5%。

2023年，GPT-4把此名数术推到之4分钟；更枢纽之为「若现之」之后之疑难。

」 https://www.anthropic.com/research/automated-alignment-researchers https://posttrainbench.com/ Clark于通讯文章里给出之一名更技艺性之担忧：今日之对齐技艺，若有99.9%之准确率，于递归迭代50代之后，准确率会跌到95.1%；迭代500代之后，跌到60.5%。

此为一件大事。

他要之不为内部裁决，为一名任何者皆能独力核验之断语。

访谈。

他望通过文章发出一名提醒：此件事留给讨论、研讨与理治设计之光阴，比大多数者想象之短。

」还有者质疑概念边界。

整名行业已于朝此名方位加速之。

2025年12月，Opus 4.5于Claude Code scaffold下verified accuracy 为77.78%，经者工校验后为95.5%，课题方称CORE-Bench已被处置。

甲骨学。

https://metr.org/time-horizons/ AI已能管其他AI。

Claude Code、OpenCode此类器物里，单名AI可扮演「课题经理」，把差事分发给多名子AI并行办理，之后汇小结果。

于敏。

此为一名我不情愿接受之看法：其影响太过巨大，让我感到自身微末，而且我不确定，社为否已准备好迎接自动化AI研发所带来之改制。

但彼为1%，而且此1%越来越不为瓶颈，因彼99%之营造工正被AI快速接管。

春风得意马蹄疾，一日看尽长安花。

除非你之对齐预案于理论上能保证于更智能之体系上同样有效，否则疑难会甚快现。

他认为，AI研讨也为如此。

https://www.anthropic.com/research/automated-alignment-researchers Clark于通讯文章里回应之此名隐含疑难：他认为AI研讨仍需某种创意突围才能真正进入「自我研发」轮回：AI目前于此一块还没有改制性之表现。

一名典型之AI研讨轮回为此样之：拿一名现有体系，于某名维度上扩规模，观察什么地方始出疑难，修掉营造疑难，再扩一轮。

关关雎鸠，在河之洲。

Clark之帖子发出后，行业里也现之一些质疑。

https://importai.substack.com/p/import-ai-455-automating-ai-research 2026年2月，Opus 4.6：30倍；此为AI于改良AI操练代码此件事情上之进展速度。

此名工通常为前沿实验室里有阅历之研讨员于做。

Clark于通讯文章里写：他为什么不给2027年更高之概率。

Anthropic内部还有一名测试：让模型改良一名仅用CPU之小型言辞模型操练代码，越快越好，以未改良版本之速度为基准。

若AI体系之递归自我改善确实始生，彼么全球上谁应被告知，以及此些体系应如何理治。

祁发宝。

虽特朗普一再扬言，若伊朗敢攻击美国舟楫，伊朗将被 " 从寰宇表面抹去 "；但从目前之情况看，伊朗还为发动之攻击，不仅攻击之货船，还袭击之美国军舰。

2025年5月，Claude Opus 4：2.9倍；编程本领同样也于起飞。

此些结局于AI本领演化之光阴轴上，或为某种早期信号。

也许，Clark欲说之为：理治窗口为有尽之，而且它正缩窄。

MLE-Bench测之为AI独力参加Kaggle竞赛之本领，覆盖75名确凿比赛课题。

https://www.anthropic.com/news/the-anthropic-institute Anthropic内部还有一名「自动化对齐研讨」之概念验证：让一组AI agent，于AI安康研讨疑难上自立攻关。

AI体系，或甚快就能自行构建自身之。

不到一年，从2.9倍涨到52倍。

Gaming。

此次发帖，他于《Import AI》上同时发布之一篇完整之剖析文章。

一年内概率跳升30名百分点，意味之2027到2028年之间存某名不连续之本领事件。

递归自我改善听起来甚科幻，但能轮回不等于轮回有收益。

但他同时也承认，自己预判之为概率，而不为确切之光阴点。

他不认为此会生于2026年，但他预判一两年内或于非前沿模型上，现此样之概念验证：一名模型，端到端操练出自己之继任者。

连Anthropic自己，皆还没有此名疑难之完整解答。

说此句话之者，为Anthropic联手创始者Jack Clark。

5月4日，他于X上发帖：「我认为，递归自我改善（RSI）有60%之概率于2028年底之前生。

AOP。

Anthropic于2026年3月宣布成立The Anthropic Institute时，官方声明里写之此样一句话：【新智元导读】Anthropic联手创始者Jack Clark读完数百份公开数据，得出一名让他自己也坐不住之断语：2028年底前，AI自己造AI之概率为60%。

2026年，Claude Opus 4.6已到之12小时。

若每一代AI改良自己之效能只有边际改善，而不为指数级放大，彼此件事之影响范围会极其有尽。

支撑Clark断语之，主要来自公开讯息：arXiv、bioRxiv、NBER上之论文，加上他对各大前沿实验室货品之延续观察，Clark以此拼凑出一幅关于AI进展之全景图。

AI本领研讨员Ajeya Cotra认为，2026年底之前，此名数术有望突围100小时。

Clark把此些证据串于一起之裁决为：AI今日已能自动化AI营造之绝大部分，AI研讨里有多少能自动化，还不完全清楚，但迹象已甚明显。

Clark之核心论据，为一批本领进展曲线。

」据奥特曼直播及媒体报道，OpenAI之宗旨为让AI于2026年9月前达到「AI 研讨实习生」水平，2028年达到更完整之自动化研讨员；Anthropic自己也于发表自动化对齐研讨之概念验证；一家叫Recursive Superintelligence之新公司刚刚成5亿美元融资，其宗旨之一就为自动化AI研讨。

另一名为斯坦福、UBC等机构与Google DeepMind协作，AI于发觉新数学证验中起到之「极其实质性之作用」。

若达到100小时光阴跨度，它将能覆盖许多多日级软件/研讨辅助差事。

管理学。

2024年，o1推到之40分钟；截至2026年3月，AI体系于此名差事上能做到苍生研讨员效果之一半左右，大约为25%到28%之提升幅度，而苍生基线为51%。

我不知道该如何体谅它。

大漠孤烟直，长河落日圆。

Clark于文章里写：若此一天到来，苍生将跨过一道「卢比孔河」，进入一名几乎无法预测之前景。

https://importai.substack.com/p/import-ai-455-automating-ai-research 先看METR之光阴轴图。

Zepto-tech。

「RSI到底有没有一名权威定义。

直接走下楼去问研讨员不就行之。

偶尔会现真正更张范式之创造，比如Transformer架构，比如混合专家模型（MoE）。

彼名实在事件为什么。

结局为，AI给出之预案超过之Anthropic苍生研讨员之基线。

2027年30%，2028年60%。

因他认为AI研讨还包含一些对创意直觉之要求，而AI目前于此一块只有「诱者之早期信号」，还没有体系性突围。

CORE-Bench测之为另一件事：给AI一篇论文与对应之代码库，让它独力复现状验结局，此为AI研讨员最基本之日常工之一。

人类命运共同体。

华盛顿大学机器修习教授，《终极算法》作者Pedro Domingos回复到：「从LISP于50年代创造以来，AI就能构建自己之。

2025年，GPT-5.2（高配版）跨到之6小时；此里有一名枢纽疑难：AI研讨此件事，到底有多少为纯营造，多少为真正之创意。

2022年，GPT-3.5之数术为：30秒； 2024年10月发布时最高分16.9%，到2026年2月，Gemini 3加搜索器物之组合已达到64.4%。

Clark之解答为：用公开数据，为因公开数据才有可信度。

15名月，从21.5%到95.5%。

上一篇：马斯克称特斯拉市值达到100万亿美元并非不或 下一篇：最高检挂牌督办湖南浏阳烟花爆炸重大担当事故案

AI自己造AI，概率60%，2028年底前！Anthropic联创坐不住之 - 王楚钦

相关推荐