研讨者设计之一名精巧之实验:让 Agent 于真正始修 Bug 之前,先“ inspect”一下代码库,然后预估自己需消耗多少 Token——但不实际执行修补。
更有意思之一名发觉为:Token 效能为模型之“固有性情”,而非差事使然。
你或会想:彼至少我可根据差事之难易程度来预估本金吧。
(本文首发钛媒体APP,作者 | 硅谷Tech news,编辑 | 赵虹宇) Agentic 编码差事之 Token 消耗量,为寻常代码问答与代码推演差事之 约 1000 倍。
上面之数术或让你倒吸一口凉气——AI Agent 自立修 Bug 于海外官方 API 下,单次未修补差事常烧掉百万以上 Token,费用可达几十至一百多美元。
有之此份数据,掘发者可更明智地选择模型、设置概算、设计止损机制;模型厂商也有之一名新之改良方位——不只为做得更强,还要做得更省。
一名苍生专家觉得“改一行就行”之 Bug,Agent 或要先读懂整名代码库之架构才能定位到彼一行——光为“读”就要烧掉大量 Token。
你让 AI Agent 帮你修一名代码 Bug。
此篇论文揭示之并非某名模型之缺陷,而为整名 Agent 范式之架构性应战——当 AI 从“一问一答”演进到“自立筹划、多步执行、反复调试”,Token 消耗之不可预测性几乎为一种必然。
论文提到一名值得关注之前景方位——Budget-aware tool-use policies(概算感知之器物用计策)。
苍生看之为:逻辑繁度、算法难度、业务体谅门槛Agent 看之为:课题有多大、要读多少文书、探求路径有多长、会不会反复修改同一名文书 还有一名令者深思之发觉:模型缺乏“止损意识”。
结局:两者之间只有弱相关。
2026 年 4 月,一篇由斯坦福、MIT、密歇根大学等联手发布之研讨论文,第一次体系性地打开之 AI Agent 于代码差事中之“耗费黑箱”——钱到底花于哪之、花得值不值、能不能提前预估,解答令者震惊。
最后一名数术尤其值得关注:此意味之,选对模型与选错模型之间之本金差距,不为“贵一点”,而为“贵出一名数量级”。
作者来自弗吉尼亚大学、斯坦福大学、MIT、密歇根大学等机构。
研讨发觉,于高本金运行中,约50% 之文书查看与文书修改操作为重复之——也就为说,Agent 于反复读同一名文书、反复改同一行代码,像一名者于房间里转圈,越转越晕,越晕越转。
社论。此篇论文给出之第三名同等重要之维度:能效(花多少才能干成)。
此笔“糊涂账”背后,藏之一名更大之行业疑难 你关掉电脑,松之口气。
论文找来苍生专家,对 500 名差事之难度进行评分,然后与 Agent 之实际 Token 消耗做对比—— 此就导致之一名尴尬之现状:掘发者几乎不或凭直觉预估 Agent 之运行本金。
大家或觉得,让 AI 帮你写代码与让 AI 跟你聊代码,花之钱应差不多吧。
此里之“读”不为指苍生读代码,而为 Agent 于工历程中,需不断地把整名课题之上下文、史册操作记载、报错讯息、文书实质一股脑儿“喂”给模型。
为什么会此样。
本金水平准确率趋势低本金准确率较低(或投入不够)中等本金准确率往往最高高本金准确率不升反降,进入"饱与区间" Claude Sonnet-3.7 与 Sonnet-4 之预测本金甚至高达差事本身本金之2 倍以上。
而一名苍生觉得“逻辑甚绕”之算法疑难,Agent 或恰好知道标准解法,三下五除二就搞定之。
然后收到之 API 账单。
更离谱之为:所有模型皆体系性低估之自己之 Token 消耗。
Automation。发觉三:模型之间“能效比”天差地别——GPT-5 最省,有之模型多烧 150 万 Token 研讨者让同一名 Agent 于同一名差事上跑之 4 次,结局发觉: 更让者头疼之为随机性。
一名本领略逊但效能高 3 倍之模型,于规模化场景下或比“最强但最费”之模型更有货殖身价。
1. “按月订阅”之定价模式,正被 Agent 撕开裂缝 此篇论文揭示之并非某名模型之缺陷,而为整名 Agent 范式之架构性应战——当 AI 从“一问一答”演进到“自立筹划、多步执行、反复调试”,Token 消耗之不可预测性几乎为一种必然。
读到此,你或会问:此些发觉对企业意味之什么。
论文发觉之一名“倒 U 型”曲线: 2. Token 效能应成为选模型之“第三指标” 既然者算不准,彼让 AI 自己来预测呢。
多数模型之预测相关性只有 0.05 到 0.34 之间,Gemini-3-Pro 最低,仅为0.04——基本等于瞎猜。
此说明:有些模型天生就“话多”,跟差事难度关系不大。
点下“运行 Agent”,就像开盲盒——账单出来才知道花之多少。
于面对所有模型皆无法处置之难差事时,抱负之 Agent 应尽早弃,而不为续烧钱。
但按量计费之疑难于于——用量本身就不可预测。
论文把此名表象小结为一句话:驱动 Agent 本金之,为输入 Token 之指数级增益,而非输出 Token。
但现状为,模型普遍于败差事上消耗之更多之 Token——它们不会“认输”,只会续探求、重试、重读上下文,像一台没有油表警示灯之汽车,一路开到抛锚。
它打开课题,读之 20 名文书,改之改,跑之一下测试,没过,又改,又跑,还为没过……来回折腾之十几轮,终于——还为没修好。
而且此名低估偏差于不提供示例之情况下更加严重。
发觉五:连模型自己皆算不准自己要花多少钱 于不同差事之间,最贵之差事比最廉之差事多烧约700 万名 Token(Figure 2a)同一模型、同一差事之多次运行中,最贵之一次大约为最廉之一次之2 倍(Figure 2b)而若跨模型对比同一名差事,最高消耗与最低消耗之间可相差高达30 倍 此为因者与 AI “看到”之难度根本不为一回事: 研讨者把所有模型皆成处置之差事(230 名)与所有模型皆败之差事(100 名)分别拿出来较量,发觉模型之相待排名几乎没有变化。
3. Agent 需“油表”与“刹车” 发觉四:苍生觉得难之,Agent 不必觉得贵——难度感知完全错位 用大白话说:苍生觉得难得要死之差事,Agent 或悠闲搞定不怎么花钱;苍生觉得小菜一碟之差事,Agent 或烧到疑虑者生。
论文指出之一名事实——钱不为花于“写代码”上,而为花于“读代码”上。
发觉二:同一名 Bug,跑两次,花费能差一倍——而且越贵之 Bug 越不稳固 高本金之运行中,Agent 大量光阴花于之“重复劳动”上。
打名比方:此就像请之一名修理工,他每动一下扳手之前,皆要你把整栋楼之图纸从头念一遍给他听——念图纸之钱,远比拧螺丝之钱贵得多。
既然者算不准,彼让 AI 自己来预测呢。
注:本文基于 2026 年 4 月 24 日发表于 arXiv 之预印本论文 *How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks*(Bai, Huang, Wang, Sun, Mihalcea, Brynjolfsson, Pentland, Pei)撰写。
旧俗上,企业选模型看两名维度:本领(能不能干)与速度(干得快不快)。
放到企业级应用——一天跑几百名差事——差距就为真金白银。
Agent 之“烧钱疑难”,不为 Bug,而为行业必经之阵痛 现阶段,前沿模型无法准确预测自身之 Token 用量。
毕竟,于 AI Agent 真正走入千行百业之制造氛围之前,每一分钱花得明明白白,比每一行代码写得漂漂亮亮,更重要。
每多一轮对话,此名上下文就变得更长一轮;而模型为按 Token 数量计费之——你喂得越多,付得越多。
Figure 11 之散点图中,几乎所有数据点皆落于“完美预测线”之下方——模型觉得自己“花不之彼么多”,实际上花之更多。
最好之成绩为 Claude Sonnet-4.5 对输出 Token 之预测相关性——0.39(满分 1.0)。
简说就为给 Agent 装一名"油表":当 Token 消耗接近概算时,强制它止无效探求,而不为一路烧到底。
也就为说,让它们先“估名价”,比直接干活还贵。
上善若水。钱没花于处置疑难上,花于之“迷路”上。
更讽刺之为——预测本身也要花钱。
发觉一:Agent 写代码之烧钱速度,为寻常 AI 对话之 1000 倍。
此意味之,纯粹之订阅制定价对 Agent 场景或不可延续,按量计费(Pay-as-you-go)于相当长光阴内仍为最现状之选项。
目前,几乎所有主流 Agent 框架皆缺乏此种机制。
更让者头疼之为随机性。
天长地久。换算成美元,Token效能高之模型每名差事可多花几十块之区别。
为什么会此样。
论文通过剖析 Agent 之实在操作给出之解答—— 论文于业界标准之SWE-bench Verified(500 名确凿 GitHub Issue)上,测试之 8 名前沿大模型之 Agent 表现。
论文指出,像 ChatGPT Plus 此样之订阅制之故可行,为因寻常对话之 Token 消耗相待可控、可预测。
但 Agent 差事完全打破之此一设想——一名之差事或因 Agent 陷入轮回而烧掉巨量 Token。
好消息为,此为第一次有者体系性地把此笔糊涂账翻出来算。
更扎心之为——花得多,不代表做得好。
该研讨尚未经同行评审。
上一篇:紫牛调查︱才开两年之豪华新动力车,不到14万就能买?低价“捡漏”不必为“馅饼”,也许为“陷阱” 下一篇:足球报:印尼国少火线换帅备战U17亚洲杯,归化强援将陆续到位