当前位置:文章 > 列表 > 正文

Agent隐性账单长什么样 花之1000倍之token,效果却没有更好:AI

Techno-singularity。
📅 2026-05-19 00:04:10 🏷️ 进口硫酸钙防静电地板 👁️ 870
Agent隐性账单长什么样 花之1000倍之token,效果却没有更好:AI

且花之越多不必做得越好 当之解之 agentic coding 之开销后,下一名疑难便为:于执行差事之前,为否有办法根据要执行之差事来预测开销。

此八名模型覆盖之五家不同之公司,同时包含闭源 API 模型(GPT、Claude、Gemini 系列)与开源模型(Kimi-K2、Qwen3-Coder-480B)。

针对此些疑难,来自密歇根大学、斯坦福大学等单位之研讨者,用开源之 OpenHands agent 框架,剖析之 8 名 frontier 模型于 swe-bench-verified 上之轨迹,第一次给出之一份体系性之解答。

为之探求高开销败背后之缘由,论文查验并剖析之 agent 处置疑难轨迹中之两类举止:阅读文书以及修改文书。

我寄愁心与明月,随君直到夜郎西。
曼联

文章首先剖析苍生专家所体谅之差事难度为否可作为预测 agent token 开销之标准。

对同一差事之重复运行来说,通过计算最贵之一次运行与最廉之一次运行之差异,结局发觉即使为同一差事,最贵之运行仍或比最廉之运行贵 2 两倍左右。

郭明彤

结局发觉:平均所有模型来看,最高之准确率并不现于开销最高之时候,而为现于较低开销时。

前景潜于之研讨方位包括更高效之 Agent 设计,以及更好之开销预测与管法门。

结局发觉:开销更大之运行轨迹中,重复修改与重复查看同一文书之次数也明显更多,此表明更多之 token 消耗其实伴随之甚多来来回回之 “折腾”,而不为高效之推演,尝试,与查验。

奥运冠军

于本金方面,大部分模型作出预测所需之本金皆小于实际差事执行本金之一半,除之早期之 Claude Sonnet-3.7 与 4,一度超过真正 task 执行本金之两倍。

文章测试之八名模型包括 OpenAI 之 GPT-5 与 GPT-5.2,Anthropic 之 Claude Sonnet-3.7、Claude Sonnet-4 与 Claude Sonnet-4.5,Google 之 Gemini-3-Pro Preview,Moonshot AI 之 Kimi-K2,以及阿里巴巴之 Qwen3-Coder-480B。

此意味之 agentic coding 差事之本金架构与吾等所熟悉之对话与推演差事有显著之不同。

于同样之 500 名差事下,Kimi-K2 与 Claude Sonnet-4.5 比 GPT-5 多消耗约 150 万 token。

结局发觉模型之 token 消耗排序基本不变,并且所有模型于败差事子集上之 token 消耗皆多于成子集,不同模型从败子集到成子集之 token 消耗增量也各不相同。

于用此种 coding agent 之历程中,最常听到之抱怨也为:“为什么它处置疑难此么啰嗦”,“为什么要此么长篇大论”,以及 “为什么我之 credits 此么快又用完之。

论文进一步选出之两名差事子集:所有模型皆成之差事与左右模型皆败之差事,并再次统计不同模型之 token 消耗。

于 swe-bench-verified 中,每一名差事皆有苍生专家所标记之差事难度,按照苍生专家预期之成光阴分为三档:“< 15 min”,“15 min - 1 hr”,“> 1 hr”。

论文统计之 swe-bench-verified 中 500 名疑难之平均 token 消耗,并将消耗从小到大排序。

1. 不透明: coding agent 消耗 token 之习性不清晰,举止模式以及不同模型之间之差异不透明; 然而,相比简之代码推演或者与代码相关之聊天,coding agent 之 token 消耗也极为显著。

春节

进一步剖析 token 消耗多少与准确率之关系,论文发觉更多之消耗并不能保证更高之准确率。

其中 6.7% 之 "简" 差事比平均 "难" 差事还贵,11.1% 之 "难" 差事比平均 "简" 差事还廉 —— 更说明之苍生程序员与 AI Agent 对差事之 "繁度认知" 为不同之维度。

此些抱怨之背后暴露出当前 coding agent 之几大疑难: 哪些模型贵,哪些模型省。

沈阳金德

不同模型之 token 效能差异显著,且更多之 token 消耗并不能保证更高之正确率。

论文将不同差事根据 token 开销进行排序,并计算它与苍生标注难度之相关性。

End。

论文首先较量之与 coding 相关之 3 种差事:代码推演(与代码相关之单论对话推演差事),代码问答对话(关于代码疑难之多轮对话聊天),以及 swe-bench 上之 agentic 代码差事。

经营

agent 能否自己裁决疑难会消耗多少 token 呢。

Network Theory。
前赛会

有网友表示确实为,然则试之好几轮咋全为搜索题呀。

以上之剖析为基于所测试之 8 名模型之整体表现特征,于此根基上,论文对每名模型进行之实在之剖析,并较量之彼等用 token 之效能。

Agent 自己为否可对差事之 token 消耗做出预测。

为否有办法对差事之 token 消耗 苍生专家对差事难度之裁决与 agent 实际 token 消耗并不完全吻合 文章进一步剖析发觉所有之模型皆低估之差事之实际消耗,尤其对 input token 之低估格外严重。

简来说,一味简地堆 token 并不能显著带来更好之效果。

此源自于 agentic coding 差事之多轮交互与巨大而繁之上下文管:巨量之代码查询,文书输出皆会被加入到对话史册中,导致消耗延续增,并且 agent 会不断把史册上下文、器物输出反复喂给模型,导致输入输出比高达 154:1。

Agentic Coding 之开销随机性高, 文章通过对 coding agent 轨迹之剖析,发觉 Agent 之 token 消耗以 input token 为主导,且于不同疑难之间以及同一疑难之不同运行之间皆存甚高之随机性。

对于同一名差事之不同运行来说,将 4 次运行按照 token 消耗排序,分成四名开销等级,然后统计每一名开销等级之准确率。

例如 GPT-5 以及 GPT-5.2 可以较低之 token 本金达到不错之准确率,但 Kimi-K2 于本金较高之同时准确率却并没有甚高。

对于不同差事来说,论文根据平均 token 消耗之数量进行分组,并统计每组差事之准确率,结局发觉 token 消耗更多之差事往往准确率较低。

不同模型之间之 token 效能差异极大 arXiv 论文:https://arxiv.org/pdf/2604.22750课题网站:https://longjubai.github.io/agent_token_consumption/ 论文紧接之对 agent 之自预测进行之尝试:于此部分实验中 agent 所有之器物与 harness 之架构皆得到之保留,只有于体系提示词中将差事从之前之 “处置疑难” 变成之 “预估开销”,此样一来,就可最大程度之表流 agent 本身之特征与功能,并让它得以用同样之器物对代码库进行多轮探求,测试与推演。

既然苍生预测之差事难度与 agent 之实际差事消耗有所差异,彼么为否可让 agent 自己来预测自己之消耗。

过往之一年里,此类 coding agent 货品迭代迅速,于一年内将于 swe-bench- verified 之准确率提升到之 78%+。

多伦多猛龙队

协作者包括来自斯坦福大学之 Zhemin Huang 与 Erik Brynjolfsson,来自 All Hands AI 之 Xingyao Wang,来自 Google DeepMind 之 Jiao Sun,来自密歇根大学之 Rada Mihalcea,以及来自斯坦福大学与麻省理工学院之 Alex Pentland。

孔繁森。

通过观察不同模型之 token 消耗与差事准确率之关系,发觉不同模型间之差异为体系性之,不为因差事难度不同, 而为模型自身之举止习性。

当开销最低时,差事运行之准确率最低,当提升开销稍微提升时,准确率达到最高,续增开销,当开销第二高与最高时,准确率不增反减 ——更多之源泉消耗并没有带来更高之差事成率。

美学。

” 论文中用预测之开销与实际开销之相关性作为衡量预测准确率之指标,并同时统计之做预测所消耗之 token。

罪名

agent 能否自己裁决疑难会消耗多少 token 呢。

从图中可发觉,最贵之差事或比最廉之差事多消耗约 700 万 token,并且越贵之差事 token 消耗之标准差也越大。

结局显示,模型作出之预测与实际之相关性最高只有 0.39(Claude Sonnet-4.5 之 output token),大多数模型皆于 0.2-0.3 之间,且对 output token 之预测比 input token 更加准确。

结局发觉,agentic coding 差事于平均输出输入 token 比,平均总 token 消耗,以及平均资财消耗,均指数级高于其他两种差事。

如今之 AI Agent 正大规模落地,其中应用最广且最受关注之当数 Claude Code,Codex,Cursor 此类 coding agent。

reliance

本文第一作者 Longju Bai 为密歇根大学一年级博士生,通讯作者 Jiaxin Pei 现为斯坦福大学博士后研讨员,即将入职得克萨斯大学奥斯汀分校担任助理教授。

世界杯

其中 Claude Sonnet 有三名版本、GPT 有两名版本,此样既包含之跨公司之横向对比,也有同一家族内不同代际之纵向对比。

时代化。

3. 不可预测:苍生估计之疑难难度真之与实际之 token 消耗匹配吗。

结局发觉 Kendall tau = 0.32,表明苍生专家对差事难度之裁决与 Agent 实际消耗之 token 之间只有甚弱之相关性。

3. 不可预测:苍生估计之疑难难度真之与实际之 token 消耗匹配吗。

论文标题:HowDoAIAgentsSpendYourMoney? AnalyzingandPre dicting Token Consumption in Agentic Coding Tasks 2. 不保底:于差事执行前难以知道差事成与否,但不论为否成,皆要支付相应开销; 因此,不管为苍生专家还为 agent 自己,对 token 消耗预测目前只能作为粗粒度之信号,离精确之事前定价还有甚大距离。

若说苍生消耗之光阴就相当于 agent 消耗之 token,彼么苍生所估计之差事难度为否与 agent 之 token 开销为吻合之呢。

Agentic Coding 有多贵。

于执行前本金预测方面,苍生体谅之差事难度与 Agent 之实际 token 消耗并不吻合,Agent 自身之预估也存准确率较低与普遍低估之疑难。

Volcengine。

上一篇:华夏首家,京东物流欧洲4国推出家电“送装一体” 下一篇:Ultimate证件照亮相 非凡大师版?问界M9