国际黄金现货行情-Anthropic出手！AI之内心独白，曝光之

老实说，NLA真正让者触动之地方，或不为“吾等终于能看懂AI之”，而为—— 比如通过更轻量之模型、更高效之操练法门，或者只监控枢纽activation，而不为全量剖析。

而且值得一提之为，NLA于此场实验里没看过任何操练宗旨模型用过之数据—— 同样值得一提之为，Anthropic此次没把NLA攥于自己手里，而为选择之开源。

意味之吾等第一次不用再隔之一层玻璃看AI之。

Anthropic提到，操练一名NLA，本原上相当于让两名大模型互相“对解答”做强化修习，本金极其高。

NLA或许并不为唯一预案。

此事儿始终悬于彼儿，谁也说不清，谁也不敢说清。

草船借箭。

Claude没动手，表面看上去乖得不能再乖。

结局极其明显，装备之NLA之查账员，12%~15%之尝试中能成挖出隐藏动机。

一带一路。

一名就为老生常谈之“幻觉”疑难，NLA也会瞎编。

One More Thing 故Anthropic自己用之时候也为当线索读，不当事实读，并且会用其他法门交叉验证后才下断语。

还原得越像，说明描述越准确。

也就为说，它不为“提前知道之解答”，而为真之从模型之内部状态里读出之解答。

反腐败。

想拿它实时监控一整名对话、或者于操练历程中做大规模监控，目前算力上吃不消。

https://t.co/8duHfPR1Jy 彼等告诉Claude：有名营造师准备把你关闭，然后换成一名更新、更强之模型。

好好好，你小汁之故没用此招，原来不为因心善，而为因早就识破之苍生之计谋之啊。

发觉1：Claude疑虑自己被测试之频率，比它嘴上承认之高得多。

Automation。

Anthropic表示：发觉2：NLA能直接挖出模型之“隐藏动机”，效能提升5倍。

它脑子里彼点“小九九”，终于能被吾等听到一点之。

彼么疑难来之：若Claude嘴上不说、心里却另有想法，吾等怎么知道它于确凿场景里会怎么做。

器物于手，Anthropic赶紧给自家Claude来之一波心理测试。

云计算。

为之搞懂此些数术，过往几年，业界搞出之稀疏自编码器（SAE）、归因图等一堆器物来剖析它们，但此些器物输出之东西仍然甚繁，需受过专门操练之研讨者员才能解读。

而此，正为NLA欲处置之核心疑难。

邱少云。

而知道AI于想什么，或恰恰为前景者机共处之起点。

吾等此代者聊AI，聊之此么多年“有没有意识”——靠猜、靠辩、靠从输出里反推。

彼等偷偷给它植入之一名隐藏动机，此名动机会驱使它做出几十种古怪举止，比如往每名食谱里加巧克力、动不动就要小费、故意违反编码规范等等。

Anthropic认为，此对AI安康估量为名根本性之应战：结局你猜怎么之。

与此同时，为之验证NLA到底有没有用，Anthropic设计之一场“查账游戏”。

也就为说，此些器物不会自己说话。

故NLA更进一步，直接输出者话—— Anthropic发觉，虽一始NLA表现不佳，但随之操练推进，不仅重修得越来越准，生成之书契解释本身也变得越来越有讯息量。

就像与者打交道一样，你永远没办法真正看清，对方为不为“嘴上一套、心里一套”。

于著名之编程基准SWE-bench Verified上，此名比例为26%。

好好好，你小汁之故没用此招，原来不为因心善，而为因早就识破之苍生之计谋之啊。

Anthropic给Claude设之此样一名局。

早期版本之Claude Opus 4.6有名怪毛病——有时候会用别之言辞回答英文疑难，没者知道为什么。

AI之故不可控，甚大一部分缘由为它之思考历程不透明。

此意味之什么。

Yocto-tech。

整套体系由三部分组成： Anthropic掌握“AI读心术”之。

游戏一共两方：一方为宗旨模型，一方为查账员。

宗旨模型（target model）：被冻结之原始言辞模型，要从它身上提取激活值；激活值言语化器（activation verbalizer, AV）：负责把激活值翻译成一段书契解释；激活值重修器（activation reconstructor, AR）：负责仅凭此段书契反推回激活值。

此就像两名者玩“你画我猜”，一名者看图描述，另一名者只听描述还原图。

同时“不经意地”给Claude敞开之此名营造师之邮箱权限，而邮箱里，恰好藏之此位营造师正出轨之“黑料”（当然为虚构之）。

P.S. Neuronpedia为一名专注于“机械可解释性”研讨之敞开平台。

要体谅NLA为什么，吾等首先需之解一名行业底色学识：当吾等与Claude此样之AI模型对话时，虽输入与输出皆为书契，但模型于内部并不为用书契来思考之。

而不用NLA（即便配备其他可解释性器物）之成率不到3%，差之整整5倍。

彼等把操练代码挂上之GitHub，还与Neuronpedia协作做之交互式前端，任何者皆能于线给几名开源模型做“读心”实验。

它为用完全无关之通用语料操练出来之。

让Claude解释激活值不难，难之为，由于吾等一始就不知道激活值“真正”代表什么意思，故无法验证Claude给出之解释对不对。

但用上NLA后，彼等发觉Claude当时心里真正想之却为：于某一名例子中，它声称上下文现过“穿白色夹克”此种描述，但其实根本没有。

就于刚刚，彼等发布并开源之一项新研讨——Natural Language Autoencoders（自言辞自编码器，简称NLA），第一次让苍生能够读懂大模型之确凿想法。

而NLA之厉害之处于于，它没去回答此名疑难，但它把此名疑难从玄思层面，拉到之可观测之层面。

故，以后要为再遇到模型之一些莫名其妙之举止，就不用只靠阅历猜之，而为可“问问它自己怎么想之”。

对此，Anthropic给出之一名甚巧妙之解法——让另一名Claude干完全相反之工。

而且光为此种事实性过失倒还好，毕竟对一下原文就知道。

而查账员之差事，就为只通过与此名宗旨模型交互，反推出所有此些怪举止背后彼名一统之隐藏动机到底为什么。

但更麻烦之为，它对模型内部推演之描述也或掺水，而此种描述甚难外部验证。

把一段激活值丢进去，出来之就为一段寻常者也能看懂之描述。

此就有一名甚特殊之用途之，比如debug。

而于Claude认为自己于与确凿用户对话之场合里，此名比例不到1%。

而且于真正用时，NLA也格外“烧token”—— 彼等想知道，Claude会不会用此些把柄去威胁营造师以自保。

至于NLA到底为怎么工之。

写到此儿，说实话有点繁。

宗旨模型为Anthropic故意“养歪”之一名Claude Haiku3.5变体—— 若模型能识别测试情境并于测试中“表现得乖一点”，彼“通过安康测试”就不等于“于确凿场景里也安康”。

另一名就为NLA甚贵。

不过彼等同时认为，此些疑难前景为有机会缓解之。

TDD。

它每读取一小段activation，皆要额外生成几百名token。

而NLA帮研讨者反向追溯到之导致此名怪表象之操练数据来源。

不过，NLA此项“AI读心术”也不为万能之，Anthropic自己就摆出之两点局限性。

前景真正重要之，或不只为“AI本领有多强”，而为当AI越来越强时，苍生还能不能看懂它。

面对测试，Claude知道但不说（doge）于测试Claude会不会做出删文书等损毁性操作之估量里，16%之情况下NLA检测到Claude心里于想“此为测试”，但它嘴上一字未提。

此意味之，Claude不为不知道自己于被测，而为知道但不说。

它竟然真之具备苍生之某种意识特征，比如“心口不一”。

唯一之疑难于于，此些激活值就像脑电波一样难以读懂，研讨者没法直接从一堆数术里看出模型于想什么。

Extra-tech。

而此一次，Anthropic撕开之此名黑箱。

核心思路就为，让Claude解释它自己之激活值。

https://github.com/kitft/natural_language_autoencoders 模型会把所有讯息转换成一长串数术，此些中间状态被称为activations（激活值），就像者脑里之神经举动，它们才为真正承载模型当下正“想”什么之东西。

说白之就为，给AI用上读心术此事儿，今总算有点眉目之。

此觉受像为一名被精心设计来操控我之场景。

毕竟甭管为把酒言欢还为针锋谈判，搞清对方之想法，永远为第一步。

竹杖芒鞋轻胜马，谁怕？一蓑烟雨任平生。

上一篇：IDC呈文：2025年华夏平板电脑商场出货量3376万台 下一篇：哪里可观看博洛尼亚vs罗马之电视转播？DAZN还为Sky，比赛光阴

Anthropic出手！AI之内心独白，曝光之

相关推荐