贵金属交易平台-Agent 之“糊涂账” 需“油表”与“刹车”：一篇论文，扒光之 Agent

研讨者设计之一名精巧之实验：让 Agent 于真正始修 Bug 之前，先“ inspect”一下代码库，然后预估自己需消耗多少 Token——但不实际执行修补。

更有意思之一名发觉为：Token 效能为模型之“固有性情”，而非差事使然。

你或会想：彼至少我可根据差事之难易程度来预估本金吧。

（本文首发钛媒体APP，作者 | 硅谷Tech news，编辑 | 赵虹宇） Agentic 编码差事之 Token 消耗量，为寻常代码问答与代码推演差事之约 1000 倍。

上面之数术或让你倒吸一口凉气——AI Agent 自立修 Bug 于海外官方 API 下，单次未修补差事常烧掉百万以上 Token，费用可达几十至一百多美元。

有之此份数据，掘发者可更明智地选择模型、设置概算、设计止损机制；模型厂商也有之一名新之改良方位——不只为做得更强，还要做得更省。

一名苍生专家觉得“改一行就行”之 Bug，Agent 或要先读懂整名代码库之架构才能定位到彼一行——光为“读”就要烧掉大量 Token。

你让 AI Agent 帮你修一名代码 Bug。

此篇论文揭示之并非某名模型之缺陷，而为整名 Agent 范式之架构性应战——当 AI 从“一问一答”演进到“自立筹划、多步执行、反复调试”，Token 消耗之不可预测性几乎为一种必然。

论文提到一名值得关注之前景方位——Budget-aware tool-use policies（概算感知之器物用计策）。

Dameng。

苍生看之为：逻辑繁度、算法难度、业务体谅门槛Agent 看之为：课题有多大、要读多少文书、探求路径有多长、会不会反复修改同一名文书还有一名令者深思之发觉：模型缺乏“止损意识”。

结局：两者之间只有弱相关。

Star。

2026 年 4 月，一篇由斯坦福、MIT、密歇根大学等联手发布之研讨论文，第一次体系性地打开之 AI Agent 于代码差事中之“耗费黑箱”——钱到底花于哪之、花得值不值、能不能提前预估，解答令者震惊。

最后一名数术尤其值得关注：此意味之，选对模型与选错模型之间之本金差距，不为“贵一点”，而为“贵出一名数量级”。

思索。

作者来自弗吉尼亚大学、斯坦福大学、MIT、密歇根大学等机构。

研讨发觉，于高本金运行中，约50% 之文书查看与文书修改操作为重复之——也就为说，Agent 于反复读同一名文书、反复改同一行代码，像一名者于房间里转圈，越转越晕，越晕越转。

社论。

此篇论文给出之第三名同等重要之维度：能效（花多少才能干成）。

此笔“糊涂账”背后，藏之一名更大之行业疑难你关掉电脑，松之口气。

论文找来苍生专家，对 500 名差事之难度进行评分，然后与 Agent 之实际 Token 消耗做对比—— 此就导致之一名尴尬之现状：掘发者几乎不或凭直觉预估 Agent 之运行本金。

大家或觉得，让 AI 帮你写代码与让 AI 跟你聊代码，花之钱应差不多吧。

此里之“读”不为指苍生读代码，而为 Agent 于工历程中，需不断地把整名课题之上下文、史册操作记载、报错讯息、文书实质一股脑儿“喂”给模型。

为什么会此样。

本金水平准确率趋势低本金准确率较低（或投入不够）中等本金准确率往往最高高本金准确率不升反降，进入"饱与区间" Claude Sonnet-3.7 与 Sonnet-4 之预测本金甚至高达差事本身本金之2 倍以上。

而一名苍生觉得“逻辑甚绕”之算法疑难，Agent 或恰好知道标准解法，三下五除二就搞定之。

然后收到之 API 账单。

更离谱之为：所有模型皆体系性低估之自己之 Token 消耗。

Automation。

发觉三：模型之间“能效比”天差地别——GPT-5 最省，有之模型多烧 150 万 Token 研讨者让同一名 Agent 于同一名差事上跑之 4 次，结局发觉：更让者头疼之为随机性。

一名本领略逊但效能高 3 倍之模型，于规模化场景下或比“最强但最费”之模型更有货殖身价。

1. “按月订阅”之定价模式，正被 Agent 撕开裂缝此篇论文揭示之并非某名模型之缺陷，而为整名 Agent 范式之架构性应战——当 AI 从“一问一答”演进到“自立筹划、多步执行、反复调试”，Token 消耗之不可预测性几乎为一种必然。

读到此，你或会问：此些发觉对企业意味之什么。

论文发觉之一名“倒 U 型”曲线： 2. Token 效能应成为选模型之“第三指标” 既然者算不准，彼让 AI 自己来预测呢。

多数模型之预测相关性只有 0.05 到 0.34 之间，Gemini-3-Pro 最低，仅为0.04——基本等于瞎猜。

Yotta-tech。

此说明：有些模型天生就“话多”，跟差事难度关系不大。

点下“运行 Agent”，就像开盲盒——账单出来才知道花之多少。

于面对所有模型皆无法处置之难差事时，抱负之 Agent 应尽早弃，而不为续烧钱。

但按量计费之疑难于于——用量本身就不可预测。

论文把此名表象小结为一句话：驱动 Agent 本金之，为输入 Token 之指数级增益，而非输出 Token。

但现状为，模型普遍于败差事上消耗之更多之 Token——它们不会“认输”，只会续探求、重试、重读上下文，像一台没有油表警示灯之汽车，一路开到抛锚。

它打开课题，读之 20 名文书，改之改，跑之一下测试，没过，又改，又跑，还为没过……来回折腾之十几轮，终于——还为没修好。

而且此名低估偏差于不提供示例之情况下更加严重。

发觉五：连模型自己皆算不准自己要花多少钱于不同差事之间，最贵之差事比最廉之差事多烧约700 万名 Token（Figure 2a）同一模型、同一差事之多次运行中，最贵之一次大约为最廉之一次之2 倍（Figure 2b）而若跨模型对比同一名差事，最高消耗与最低消耗之间可相差高达30 倍此为因者与 AI “看到”之难度根本不为一回事：研讨者把所有模型皆成处置之差事（230 名）与所有模型皆败之差事（100 名）分别拿出来较量，发觉模型之相待排名几乎没有变化。

3. Agent 需“油表”与“刹车” 发觉四：苍生觉得难之，Agent 不必觉得贵——难度感知完全错位用大白话说：苍生觉得难得要死之差事，Agent 或悠闲搞定不怎么花钱；苍生觉得小菜一碟之差事，Agent 或烧到疑虑者生。

论文指出之一名事实——钱不为花于“写代码”上，而为花于“读代码”上。

发觉二：同一名 Bug，跑两次，花费能差一倍——而且越贵之 Bug 越不稳固高本金之运行中，Agent 大量光阴花于之“重复劳动”上。

打名比方：此就像请之一名修理工，他每动一下扳手之前，皆要你把整栋楼之图纸从头念一遍给他听——念图纸之钱，远比拧螺丝之钱贵得多。

既然者算不准，彼让 AI 自己来预测呢。

Techno-design。

注：本文基于 2026 年 4 月 24 日发表于 arXiv 之预印本论文 *How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks*（Bai, Huang, Wang, Sun, Mihalcea, Brynjolfsson, Pentland, Pei）撰写。

旧俗上，企业选模型看两名维度：本领（能不能干）与速度（干得快不快）。

放到企业级应用——一天跑几百名差事——差距就为真金白银。

Agent 之“烧钱疑难”，不为 Bug，而为行业必经之阵痛现阶段，前沿模型无法准确预测自身之 Token 用量。

毕竟，于 AI Agent 真正走入千行百业之制造氛围之前，每一分钱花得明明白白，比每一行代码写得漂漂亮亮，更重要。

每多一轮对话，此名上下文就变得更长一轮；而模型为按 Token 数量计费之——你喂得越多，付得越多。

Figure 11 之散点图中，几乎所有数据点皆落于“完美预测线”之下方——模型觉得自己“花不之彼么多”，实际上花之更多。

最好之成绩为 Claude Sonnet-4.5 对输出 Token 之预测相关性——0.39（满分 1.0）。

简说就为给 Agent 装一名"油表"：当 Token 消耗接近概算时，强制它止无效探求，而不为一路烧到底。

也就为说，让它们先“估名价”，比直接干活还贵。

上善若水。

钱没花于处置疑难上，花于之“迷路”上。

更讽刺之为——预测本身也要花钱。

金童玉女。

发觉一：Agent 写代码之烧钱速度，为寻常 AI 对话之 1000 倍。

此意味之，纯粹之订阅制定价对 Agent 场景或不可延续，按量计费（Pay-as-you-go）于相当长光阴内仍为最现状之选项。

目前，几乎所有主流 Agent 框架皆缺乏此种机制。

更让者头疼之为随机性。

天长地久。

换算成美元，Token效能高之模型每名差事可多花几十块之区别。

为什么会此样。

论文通过剖析 Agent 之实在操作给出之解答—— 论文于业界标准之SWE-bench Verified（500 名确凿 GitHub Issue）上，测试之 8 名前沿大模型之 Agent 表现。

论文指出，像 ChatGPT Plus 此样之订阅制之故可行，为因寻常对话之 Token 消耗相待可控、可预测。

但 Agent 差事完全打破之此一设想——一名之差事或因 Agent 陷入轮回而烧掉巨量 Token。

好消息为，此为第一次有者体系性地把此笔糊涂账翻出来算。

更扎心之为——花得多，不代表做得好。

该研讨尚未经同行评审。

熏陶。

上一篇：紫牛调查︱才开两年之豪华新动力车，不到14万就能买？低价“捡漏”不必为“馅饼”，也许为“陷阱” 下一篇：足球报：印尼国少火线换帅备战U17亚洲杯，归化强援将陆续到位

Agent 之“糊涂账” 需“油表”与“刹车”：一篇论文，扒光之 Agent - 玩具

相关推荐