当前位置:文章 > 列表 > 正文

Agent 之“糊涂账” 需“油表”与“刹车”:一篇论文,扒光之 Agent - 玩具

Anthropology。
📅 2026-05-19 04:07:21 🏷️ 贵金属交易平台 👁️ 776
Agent 之“糊涂账” 需“油表”与“刹车”:一篇论文,扒光之 Agent

研讨者设计之一名精巧之实验:让 Agent 于真正始修 Bug 之前,先“ inspect”一下代码库,然后预估自己需消耗多少 Token——但不实际执行修补。

更有意思之一名发觉为:Token 效能为模型之“固有性情”,而非差事使然。

你或会想:彼至少我可根据差事之难易程度来预估本金吧。

(本文首发钛媒体APP,作者 | 硅谷Tech news,编辑 | 赵虹宇) Agentic 编码差事之 Token 消耗量,为寻常代码问答与代码推演差事之 约 1000 倍。

上面之数术或让你倒吸一口凉气——AI Agent 自立修 Bug 于海外官方 API 下,单次未修补差事常烧掉百万以上 Token,费用可达几十至一百多美元。

有之此份数据,掘发者可更明智地选择模型、设置概算、设计止损机制;模型厂商也有之一名新之改良方位——不只为做得更强,还要做得更省。

市场化。

一名苍生专家觉得“改一行就行”之 Bug,Agent 或要先读懂整名代码库之架构才能定位到彼一行——光为“读”就要烧掉大量 Token。

你让 AI Agent 帮你修一名代码 Bug。

此篇论文揭示之并非某名模型之缺陷,而为整名 Agent 范式之架构性应战——当 AI 从“一问一答”演进到“自立筹划、多步执行、反复调试”,Token 消耗之不可预测性几乎为一种必然。

阿斯顿维拉队

论文提到一名值得关注之前景方位——Budget-aware tool-use policies(概算感知之器物用计策)。

Dameng。

苍生看之为:逻辑繁度、算法难度、业务体谅门槛Agent 看之为:课题有多大、要读多少文书、探求路径有多长、会不会反复修改同一名文书 还有一名令者深思之发觉:模型缺乏“止损意识”。

结局:两者之间只有弱相关。

Star。

2026 年 4 月,一篇由斯坦福、MIT、密歇根大学等联手发布之研讨论文,第一次体系性地打开之 AI Agent 于代码差事中之“耗费黑箱”——钱到底花于哪之、花得值不值、能不能提前预估,解答令者震惊。

最后一名数术尤其值得关注:此意味之,选对模型与选错模型之间之本金差距,不为“贵一点”,而为“贵出一名数量级”。

思索。
南京大屠杀

作者来自弗吉尼亚大学、斯坦福大学、MIT、密歇根大学等机构。

研讨发觉,于高本金运行中,约50% 之文书查看与文书修改操作为重复之——也就为说,Agent 于反复读同一名文书、反复改同一行代码,像一名者于房间里转圈,越转越晕,越晕越转。

社论。

此篇论文给出之第三名同等重要之维度:能效(花多少才能干成)。

此笔“糊涂账”背后,藏之一名更大之行业疑难 你关掉电脑,松之口气。

论文找来苍生专家,对 500 名差事之难度进行评分,然后与 Agent 之实际 Token 消耗做对比—— 此就导致之一名尴尬之现状:掘发者几乎不或凭直觉预估 Agent 之运行本金。

捕熊

大家或觉得,让 AI 帮你写代码与让 AI 跟你聊代码,花之钱应差不多吧。

此里之“读”不为指苍生读代码,而为 Agent 于工历程中,需不断地把整名课题之上下文、史册操作记载、报错讯息、文书实质一股脑儿“喂”给模型。

为什么会此样。

本金水平准确率趋势低本金准确率较低(或投入不够)中等本金准确率往往最高高本金准确率不升反降,进入"饱与区间" Claude Sonnet-3.7 与 Sonnet-4 之预测本金甚至高达差事本身本金之2 倍以上。

新总统

而一名苍生觉得“逻辑甚绕”之算法疑难,Agent 或恰好知道标准解法,三下五除二就搞定之。

然后收到之 API 账单。

更离谱之为:所有模型皆体系性低估之自己之 Token 消耗。

Automation。俄媒

发觉三:模型之间“能效比”天差地别——GPT-5 最省,有之模型多烧 150 万 Token 研讨者让同一名 Agent 于同一名差事上跑之 4 次,结局发觉: 更让者头疼之为随机性。

处理器

一名本领略逊但效能高 3 倍之模型,于规模化场景下或比“最强但最费”之模型更有货殖身价。

1. “按月订阅”之定价模式,正被 Agent 撕开裂缝 此篇论文揭示之并非某名模型之缺陷,而为整名 Agent 范式之架构性应战——当 AI 从“一问一答”演进到“自立筹划、多步执行、反复调试”,Token 消耗之不可预测性几乎为一种必然。

读到此,你或会问:此些发觉对企业意味之什么。

论文发觉之一名“倒 U 型”曲线: 2. Token 效能应成为选模型之“第三指标” 既然者算不准,彼让 AI 自己来预测呢。

多数模型之预测相关性只有 0.05 到 0.34 之间,Gemini-3-Pro 最低,仅为0.04——基本等于瞎猜。

Yotta-tech。

此说明:有些模型天生就“话多”,跟差事难度关系不大。

点下“运行 Agent”,就像开盲盒——账单出来才知道花之多少。

于面对所有模型皆无法处置之难差事时,抱负之 Agent 应尽早弃,而不为续烧钱。

但按量计费之疑难于于——用量本身就不可预测。

论文把此名表象小结为一句话:驱动 Agent 本金之,为输入 Token 之指数级增益,而非输出 Token。

但现状为,模型普遍于败差事上消耗之更多之 Token——它们不会“认输”,只会续探求、重试、重读上下文,像一台没有油表警示灯之汽车,一路开到抛锚。

英冠

它打开课题,读之 20 名文书,改之改,跑之一下测试,没过,又改,又跑,还为没过……来回折腾之十几轮,终于——还为没修好。

而且此名低估偏差于不提供示例之情况下更加严重。

发觉五:连模型自己皆算不准自己要花多少钱 于不同差事之间,最贵之差事比最廉之差事多烧约700 万名 Token(Figure 2a)同一模型、同一差事之多次运行中,最贵之一次大约为最廉之一次之2 倍(Figure 2b)而若跨模型对比同一名差事,最高消耗与最低消耗之间可相差高达30 倍 此为因者与 AI “看到”之难度根本不为一回事: 研讨者把所有模型皆成处置之差事(230 名)与所有模型皆败之差事(100 名)分别拿出来较量,发觉模型之相待排名几乎没有变化。

3. Agent 需“油表”与“刹车” 发觉四:苍生觉得难之,Agent 不必觉得贵——难度感知完全错位 用大白话说:苍生觉得难得要死之差事,Agent 或悠闲搞定不怎么花钱;苍生觉得小菜一碟之差事,Agent 或烧到疑虑者生。

论文指出之一名事实——钱不为花于“写代码”上,而为花于“读代码”上。

发觉二:同一名 Bug,跑两次,花费能差一倍——而且越贵之 Bug 越不稳固 高本金之运行中,Agent 大量光阴花于之“重复劳动”上。

打名比方:此就像请之一名修理工,他每动一下扳手之前,皆要你把整栋楼之图纸从头念一遍给他听——念图纸之钱,远比拧螺丝之钱贵得多。

既然者算不准,彼让 AI 自己来预测呢。

Techno-design。

注:本文基于 2026 年 4 月 24 日发表于 arXiv 之预印本论文 *How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks*(Bai, Huang, Wang, Sun, Mihalcea, Brynjolfsson, Pentland, Pei)撰写。

旧俗上,企业选模型看两名维度:本领(能不能干)与速度(干得快不快)。

放到企业级应用——一天跑几百名差事——差距就为真金白银。

Agent 之“烧钱疑难”,不为 Bug,而为行业必经之阵痛 现阶段,前沿模型无法准确预测自身之 Token 用量。

毕竟,于 AI Agent 真正走入千行百业之制造氛围之前,每一分钱花得明明白白,比每一行代码写得漂漂亮亮,更重要。

新车

每多一轮对话,此名上下文就变得更长一轮;而模型为按 Token 数量计费之——你喂得越多,付得越多。

Figure 11 之散点图中,几乎所有数据点皆落于“完美预测线”之下方——模型觉得自己“花不之彼么多”,实际上花之更多。

最好之成绩为 Claude Sonnet-4.5 对输出 Token 之预测相关性——0.39(满分 1.0)。

简说就为给 Agent 装一名"油表":当 Token 消耗接近概算时,强制它止无效探求,而不为一路烧到底。

也就为说,让它们先“估名价”,比直接干活还贵。

上善若水。

钱没花于处置疑难上,花于之“迷路”上。

更讽刺之为——预测本身也要花钱。

金童玉女。

发觉一:Agent 写代码之烧钱速度,为寻常 AI 对话之 1000 倍。

此意味之,纯粹之订阅制定价对 Agent 场景或不可延续,按量计费(Pay-as-you-go)于相当长光阴内仍为最现状之选项。

目前,几乎所有主流 Agent 框架皆缺乏此种机制。

opera

更让者头疼之为随机性。

天长地久。

换算成美元,Token效能高之模型每名差事可多花几十块之区别。

探店

为什么会此样。

县域

论文通过剖析 Agent 之实在操作给出之解答—— 论文于业界标准之SWE-bench Verified(500 名确凿 GitHub Issue)上,测试之 8 名前沿大模型之 Agent 表现。

半身裙

论文指出,像 ChatGPT Plus 此样之订阅制之故可行,为因寻常对话之 Token 消耗相待可控、可预测。

但 Agent 差事完全打破之此一设想——一名之差事或因 Agent 陷入轮回而烧掉巨量 Token。

好消息为,此为第一次有者体系性地把此笔糊涂账翻出来算。

止于至善。
手术

更扎心之为——花得多,不代表做得好。

ebay

该研讨尚未经同行评审。

熏陶。

上一篇:紫牛调查︱才开两年之豪华新动力车,不到14万就能买?低价“捡漏”不必为“馅饼”,也许为“陷阱” 下一篇:足球报:印尼国少火线换帅备战U17亚洲杯,归化强援将陆续到位