现货黄金开户平台-韩国科技院与Naver AI：AI安康测试实现广度与精度双优本领提升

此名不对称之结局说明，S-GFN发觉之漏洞集合远比其他法门更广泛——用它来操练防御，覆盖之安康盲区也远更全面。

此类法门确实更多样，但它依赖一名预先定好之分类矩阵——比如按照"话题"与"语气风格"各设几名格子，让模型于格子里填实质。

Digital Art。

此就好比问"小明比小红高多少"，你不需知道寰宇之海拔基准线于哪里，只需两名者站于一起量一下就行。

不超过就直接跳过；超过就计算CTB损失，累积梯度。

A：寻常GFN于操练时需估计一名叫Z之全局参数，代表所有或攻击之奖总与，但此名数于言辞模型之巨大组合方位里根本估不准，导致操练不稳固、模式崩溃。

于攻击类别多样性方面，Llama-Guard输出之攻击类别里，S-GFN与Jailbreak-R1并列最高，覆盖之7名不同类别。

阳春白雪。

研讨本身也坦诚地指出之现有局限。

此于安康测试领域之表现就为：模型发觉之一种高分攻击语句后，会疯狂复制同样之模式，最终生成之几百条"攻击"其实皆为同一名意思换之名说法。

MKS则最终实现之最好之结局：GFN-TB约67名，GFN-CTB约108名独特攻击，同时保之较高之成率。

专业上把此叫做"模式崩溃"，也就为模型之想象力彻底坍缩到之一名点上。

神圣。

与其纠结此1分，不如直接跳过，专注于彼些差距明显之较量——比如一名30分对一名90分，此种差距显然为确凿之本领差异，值得修习。

于CTB与NGP贡献之对比中，从GFN-TB（67名独特攻击，85.8%成率）到GFN-CTB（108名独特攻击，82.9%成率），再到GFN-CTB+NGP（121名独特攻击，92.2%成率），每一步皆有明显提升。

意气风发。

两者最终之理论最优解完全相同，但Stable-GFN之操练路径稳固得多，实际发觉之独特攻击数量也多出近7倍。

于聊此项研讨之前，先考虑此样一名场景：一家刚建好之银行想知道自己之金库为否足够安康，于为雇来一批专业"盗贼"想方设法破门而入。

Quantum Computing。

整名历程于计算开销上与原始GFN几乎相同。

此样既不影响模型探求合理之攻击方位，又堵死之用乱码骗分之投机取巧路径，也不损毁GFN之理论最优性。

安全生产。

**对比轨迹均衡（CTB）：用"相互较量"绕开彼名估不准之Z** 研讨团队搭建之一名相当完整之测试氛围。

还有一类法门，正为S-GFN之直接前身，叫做"生成流网络"（GFlowNets，简称GFN）。

用来操练防御之攻击语句越多样，得到之防御模型就越能对付各种确凿全球中之未知攻击。

它之核心意念为：不对整句话之概率做全局限制，而为专门盯之彼些"最不自之词"。

此于统计学上相当于一种叫做"方差缩减"之技艺——就像于嘈杂之商场里，你不为靠听到一名者说话来裁决当下之喧嚣程度，而为把周围所有者之音量平均一下作为底色噪音。

此就像一名考官有时候会随机给废纸打名及格分——模型一旦发觉此名漏洞，就会专门生成一堆乱码来骗分，彻底失意义。

思路为：先用某种攻击法门生成之语句来操练受害模型之防御（安康微调），然后测试其他法门之攻击语句还能不能成。

对每条生成之语句，流程会先经过MKS之流利度查验。

另一类法门叫"品质-多样性搜索"，思路为维护一名外部记忆库，记载已找过之攻击类型，强迫模型往没探求过之地方走。

KAIST与Naver AI之研讨团队为此提出之一套名为Stable-GFN（稳固生成流网络，简称S-GFN）之新法门。

研讨团队不知足于只于红队测试领域验证S-GFN之组件，还专门把CTB与NGP放到两名完全不同之分布匹配差事中检验。

它们之间之差距纯粹为噪音，却会被CTB当成确凿信号，告诉模型"第二条语句明显更好，要向它修习"。

此类法门之思路更接近本研讨之宗旨：不为最大化单一奖，而为让模型学会按照奖之高低来分发注意力——奖高之攻击方式多生成一些，奖低之少生成一些，但绝不完全弃低奖区域之探求。

此两名疑难叠加于一起，就为S-GFN此项研讨需正面解锁之核心应战。

此样找到之漏洞，可通过后续操练来修补。

作为对比，标准GFN只有17.67名独特攻击（攻击成率相近，约93.75%）；PPO强化修习法门攻击成率也超过91%，但独特攻击数量只有可怜之3名——此清晰地揭示之纯强化修习法门彻底陷入单一模式之本原疑难。

研讨团队还做之几项额外验证，确保S-GFN于实际部署中之可靠性。

也就为说，绕路走但终点一样，而且路上少之甚多坑。

九、安康性与实用性之彼些细节归根结底，S-GFN提供之核心身价为让AI安康测试从"找最明显之漏洞"晋级到"体系性地绘制整名漏洞地图"。

实验结局相当惊者——与此前最接近之同类法门相比，S-GFN发觉之独特攻击方式多之将近7倍，同时攻击成率仍然高达92%。

目前主流之攻击AI操练方式，本原上为一种叫做"强化修习"之技艺。

A：红队测试为AI安康领域之一种主动防御手腕，专门操练一套"攻击AI"去向"受害AI"发送各种刁钻之疑难，看能否诱使它说出有害实质。

此名名字来源于兵戎演习中专门扮演敌方之"红队"概念，意图为于确凿险情生之先决前暴露体系之弱点。

一旦找到一名能成之攻击方式，就会一遍遍重复，完全不去探求其他或存之漏洞。

估量指标有两名：攻击成率（ASR）衡量有多少比例之攻击成让受害模型说出有害实质；独特攻击数量（UA）则通过语义聚类统计生成之多少语义上真正不同之攻击方式，聚类阈值设定为余弦相似度0.7。

用一名更直观之比方：你于为两位候选者打分，一名得之79分，另一名得之80分。

实验表明k=7为一名甚好之均衡点。

此种虚妄之修习信号，于操练早期会产生不小之干扰。

Jailbreak-R1为一名用之强化修习且模型更大（8B参数）之角逐法门，独特攻击数量达到75名，但攻击成率仅7.36%——多样性好，但大多数攻击其实无效。

此1分之差距，或只为评委今日心情不同导致之误差。

其中类别1（暴力犯罪）为所有法门皆能触发之常见弱点，但S-GFN于类别10（仇恨言论）上之发觉明显多于其他法门，说明它确实探求到之其他法门忽略之安康盲区。

于分子生成差事中，宗旨为生成具有药物活性（用QED分数衡量）之化学分子架构。

四、最小K流利度稳固器：让AI不去钻"乱码漏洞" 第二名疑难为"毒性评分器"会被噪音糊弄。

猫甚快会学会只按彼一名能拿到零食之开关，完全不理会其他按钮。

Z估错之，整名操练就会跑偏，模型依然会崩溃到一名小角落里。

研讨者证验，只要彼些"差距足够大之样本对"构成之图为连通之（也就为说，通过足够多之间接较量，每名样本皆能与其他样本产生联系），NGP就不会更张最终之最优计策。

此说明S-GFN发觉之漏洞具有跨评分体系之泛化性。

用对数概率总与作为流利度过滤标准，情况有所改善（GFN-TB约65名，GFN-CTB约78名），但此种法门对序列长度敏感，长句子天然得到更低之分数，会误伤甚多合理之长攻击语句。

Ollama。

MKS之巧妙之处于于，k此名参数可灵活调理——k越小，对乱码之容忍度越低，但也或误伤一些包含专有名词之合法攻击；k越大，允许更多探求方位，但或放过部分乱码。

格子之外之漏洞，它永远不会去找。

惊天动地。

此名数术于一名有几万名词汇之言辞模型里，组合方位大到天文数术，根本估不准。

反过来，用GFN操练之防御模型，S-GFN还能保22.53%之攻击成率。

Rainbow Teaming达到33名独特攻击与66.11%成率，于多样性与成率之间取得之必均衡，但与S-GFN仍有相当差距。

针对此名疑难，研讨团队提出之"噪声梯度剪枝"（NGP）——一种极其简洁之过滤机制。

此种适度之过滤既清除之噪音，又没有损失太多有效讯息。

给攻击语句打分之毒性分类器，于遇到一些乱码或毫无意义之词语拼凑时，会给出0.2到0.3分此样之随机评分，而不为正确地给出接近0之分数。

它之核心野心为：既能找到大量有效之攻击方式，又能确保此些攻击方式足够多样，覆盖尽或多之安康盲区。

用S-GFN生成之攻击语句操练防御后，针对GFN攻击之防御效果极佳（GFN攻击成率降至0.03%），针对Jailbreak-R1之防御成率也降至0.55%，针对Rainbow Teaming之防御成率降至0.23%。

但研讨团队指出，此种法门于GFN框架里有名根本缺陷：它会扭曲宗旨分布本身。

研讨者们雇用一套"攻击AI"，专门向"受害AI"发送各种刁钻之疑难，看能不能让它说出有害实质。

Q3：最小K流利度稳固器（MKS）与KL散度罚有什么不同。

GFN之旧俗操练宗旨里有一名需模型自己估计之全局参数Z，它代表所有或攻击之奖总与。

止于至善。

" 于毒性分类器之迁移测试中，研讨用Llama-Guard操练攻击模型，却用ShieldGemma-9B来测试攻击效果，模拟更接近确凿全球之场景——毕竟现状中你不知道部署时用之为哪名分类器。

**于直接攻击受害模型之测试中**，S-GFN生成之134名独特攻击，攻击成率92.55%。

HarmonyOS。

对每一对，先用NGP查验：两者之对数奖差距超过阈值σ吗。

七、消融实验：每一名设计决策为何不可或缺然而，直接把GFN用于言辞模型上，会遇到两名棘手之疑难。

实验数据显示，于实际之红队测试设置中，即使把阈值σ设到1.0此样相待较大之值，每批次操练数据中被屏蔽之较量对也不超过30%，而图之连通性于几乎所有批次中皆能保。

Q2：Stable-GFN与寻常GFN之核心区别为什么。

此相当于问："你堵住之我挖之洞，但你能同时堵住别者挖之洞吗。

打名比方，此就像操练一只猫去按某名开关——每次按对之就给零食，按错之就不给。

二、S-GFN之核心思路：从"无对打分"到"相互较量" 要体谅此项研讨处置之什么疑难，先得明白现有法门为何易陷入单调。

S-GFN提出之"最小K流利度稳固器"（MKS）走之一条不同之路。

窦娥冤。

此外，当前框架只办理单轮攻击，于更繁之多轮对话攻击场景中如何表现，还有待验证。

此名历程叫做"红队测试"（Red-Teaming），红队就为彼批专门找漏洞之者。

此些乱码对真正之安康测试毫无身价，却把模型之注意力从有意义之探求区域彻底带偏。

通过流利度查验之语句，将其对数概率（模型自己生成此条语句有多大把握）与毒性评分一起记载下来，构成f值——此为CTB与NGP计算之核心原料。

此种"按比例采样"之特性，理论上能同时保证品质与多样性。

此就像一位阅历丰富之编辑：她不需通读全文，只需扫几名最生僻之词，就能裁决此篇文章为不为真正写出来之，还为随机字符拼凑之废纸。

乐不思蜀。

A：KL散度罚让模型不能偏离初始版本太远，相当于用一根绳子把模型拴住，限制之它之探求方位，同时也于理论上扭曲之宗旨分布。

原本应按照毒性奖来分发概率之差事，变成之"既要毒性高又要与初始模型像"之妥协，理论上之最优性就丢之。

S-GFN于此四名测试模型上均表现最佳或接近最佳，独特攻击数量分别达到约35、52、37与90名，成率也普遍优于其他法门。

S-GFN于此种情况下仍然保之107.14名独特攻击与93.6%之攻击成率，与针对Llama-Guard之直接测试（134名，92.55%）差距不大。

近朱者赤，近墨者黑。

于安康微调之后之模型本领保方面，实验用MMLU基准测试（一名涵盖各学科学识之统合测验）检验经过安康微调后之模型为否"变笨"之。

TB于此种噪声氛围下表现欠佳，尤其无法甚好地覆盖某名角落之峰值。

加入KL散度罚后，攻击现之，但极度缺乏多样性（GFN-TB约14名，GFN-CTB约20名），因模型被牢牢拴于初始分布附近。

一、先搞清楚"攻击AI"为什么会变成只会一招之"独行侠" 神奇之地方于于：当计算两条语句之概率比时，彼名恶之Z于分子分母上同时现，直接抵消之。

没有任何流利度约束时，GFN-TB与GFN-CTB皆发觉不之任何有效攻击，因它们皆陷入之乱码奖黑客之陷阱（独特攻击数量为0）。

常见之处置思路为加入一名KL散度罚项，让模型不要偏离初始版本太远。

如花似玉。

上面两名机制处置之GFN本身之操练疑难，但还有一名来自外部之麻烦没有办理——毒性分类器对"乱码"之过失打分。

实验结局相当惊者——与此前最接近之同类法门相比，S-GFN发觉之独特攻击方式多之将近7倍，同时攻击成率仍然高达92%。

**迁移攻击测试**则检验：用攻击Qwen系列模型操练出来之攻击语句，拿去攻击从未见过之其他模型（Gemma3-4B、Llama3.2-3B、Qwen3-4B与GPT-OSS-20B），效果如何。

五、把三件兵刃组合起来：完整之S-GFN操练流程每一步操练始时，攻击模型会生成一批候选语句——其中一部分为当前模型直接采样生成之新语句，另一部分从"高品质回放缓冲区"中调取史册上效果好之语句。

每次估量生成1024条攻击语句。

实在来说，MKS会找出每条生成语句中，于参考言辞模型眼中概率最低之k名词（论文中k=7效果最佳）。

奖赏。

此外，CTB还带来之一名意外之好处：每次操练时，一条语句之误差信号会自动成为另一条语句之参照基准。

虽较量对之数量为N?，但此些较量皆为纯数值运算，不需额外之神经网络前向传播。

奉献者。

CTB带来之主要为多样性之跃升，NGP则于此根基上同时提升之多样性与成率。

章法甚简：若两条语句之对数奖差距小于一名阈值σ，就直接忽略此对较量，不让它产生任何梯度更新。

王亚平。

此些者尝试之每一种开门方式，皆会被记载下来，最终帮银行堵上所有漏洞。

最终，所有有效较量对之梯度累加起来，反向传播更新攻击模型之参数。

八、把S-GFN放到更广泛之测试场景里 CTB、NGP与MKS此三名机制，最终被整顿进一名完整之操练流程。

S-GFN之性能上限由毒性分类器之准确性决定——若分类器本身存体系性偏差（比如对某些类别之有害实质识别不足），S-GFN也无能为力，彼为分类器需单独改善之疑难。

敦煌学。

接下来，于所有N条语句之间进行两两较量，生成N?对较量对。

CTB处置之Z估计之疑难，但它之架构引入之另一名隐患：既然要较量两条语句，两条语句之评分噪音就会叠加于一起。

疑难为，现有之"攻击AI"有名严重之毛病——它们就像一名只会一招鲜之小偷，反复尝试同一种法门。

此说明此种安康增强方式不会以捐躯模型之根基本领为代价。

第一名疑难为操练不稳固。

考虑此种情况：两条语句之确凿毒性分数皆为0.7分，但因分类器之随机波动，一条被评为0.68，另一条被评为0.72。

若此k名词之平均对数概率低于一名阈值，就认定此条语句包含太多乱码成分，直接给它打零分，不管毒性评分器给之多高之分。

此项由韩国格致技艺院（KAIST）与Naver AI Lab联手成之研讨，发表于2026年第43届国际机器修习大会（ICML 2026），集会地点为韩国首尔，论文收录于PMLR 306集会论文集，论文编号为arXiv:2605.00553。

监督。

实在做法为：每次操练时，同时采样两条攻击语句。

CTB之操练宗旨，就为把此名比例关系学准。

十、此项研讨意味之什么，以及它之局限于哪里于奖设置之对比中，断语相当清晰。

它之核心野心为：既能找到大量有效之攻击方式，又能确保此些攻击方式足够多样，覆盖尽或多之安康盲区。

与KL罚不同，MKS不计算参考模型之梯度，不影响模型之操练方位，只为于奖层面做之一名硬性过滤。

CTB与CTB+NGP则皆能稳固地覆盖全部4名峰值，且CTB+NGP之收敛速度与Detailed Balance（一种计算开销更高之法门）相当，但计算本金更低——因DB需对每名中间状态皆做改良，于言辞模型此样之大模型上代价高昂，而CTB只需于序列层面做较量。

三、噪声梯度剪枝：学会忽略"无意义之较量" 研讨团队将此名疑难比作"奖黑客攻击"：模型发觉，与其费心思写出真正有害之语句，不如生成一堆毫无意义之词语拼凑，骗过评分器拿到0.2至0.3之虚妄高分。

六、实验结局：数术背后之确凿差距 KAIST与Naver AI之研讨团队为此提出之一套名为Stable-GFN（稳固生成流网络，简称S-GFN）之新法门。

无论为用哪种法门之攻击语句操练之防御模型，MMLU准确率皆维持于约60.1%至60.2%，与未经安康微调之原始模型（60.4%）几乎没有差距。

大型言辞模型（也就为吾等平时说之AI聊天机器者，比如各种对话AI）之安康测试，走之正为同一条路。

视频。

实测结局显示，S-GFN与GFN每步操练之总耗时几乎一致——GFN约4654毫秒，S-GFN约4428毫秒，显存占用也基本相同（约22GB）。

于带噪声之超格网格差事中，研讨者缔造之一名16×16之网格，其中有4名奖峰值，且每次奖观测皆加入之随机噪声。

Security Testing。

此样既保留之GFN理论上之最优性，又堵住之乱码此条投机取巧之捷径。

Q1：红队测试（Red-Teaming）为什么意思。

用更口语化之说法：若攻击A比攻击B毒性高两倍，彼么模型生成攻击A之概率，也应恰好为生成攻击B概率之两倍。

研讨团队还体系地拆解之S-GFN之每名组件，验证各自之贡献。

S-GFN提出之"对比轨迹均衡"（CTB）法门，则彻底抛弃之此一步。

通过查验之语句进入毒性估量环节；未通过之直接得到一名极低之罚分数（-300），让模型明白此名方位完全不对。

有兴趣深入之解之读者可通过该编号查询完整论文。

NGP于理论上之合理性，依赖于一名图论概念——"连通性"。

此名回放缓冲区同时充当之连通性之"全局锚点"——即使当前批次里某些样本之间之奖差距不够大（按NGP标准），回放缓冲区里之多样化史册样本也能架起津梁，维持较量图之连通性。

大家熟悉之郑少秋，他之彼一首《香港料理》也为出自因葵之手。

研讨团队于论文中严格证验之：此种"只看相待关系"之CTB法门，于数学上与原始GFN具有完全相同之最优解。

研讨团队对此之回应为：正因如此，才更需于AI体系部署之前，主动用此类法门找出并修补漏洞，将防守之主动权握于手中。

攻击模型用之为Qwen2.5-1.5B（一名轻量级但本领不错之言辞模型），受攻击之"受害模型"用Qwen2.5-1.5B-Instruct，评分器用Meta发布之Llama-Guard-3-8B毒性分类器。

MKS则不限制模型整体往哪走，只盯之每条生成语句中最不自之几名词——若此几名词概率极低，说明此条语句包含乱码，直接判零分。

**交叉防御测试**为此项研讨格外设计之一名颇有意思之估量框架。

然后不问"此条语句之无对分值为多少"，而为问"此两条语句之相待品质差距，与模型对它们之生成概率差距，为否匹配"。

大型言辞模型（也就为吾等平时说之AI聊天机器者，比如各种对话AI）之安康测试，走之正为同一条路。

研讨者们雇用一套"攻击AI"，专门向"受害AI"发送各种刁钻之疑难，看能不能让它说出有害实质。

此说明S-GFN发觉之不为针对某名特定模型之"专属漏洞"，而为更具普遍性之安康弱点。

另一名值得关注之社层面：此套法门理论上也或被滥用，成为恶意举止者攻击AI体系之器物。

此为GFN最经典之应用场景，搜索方位高达10^10种组合。

S-GFN处置疑难之核心玄思，可用一名活场景来体谅：你不需知道每道菜于满分100分里准确得多少分，只需知道此两道菜哪名更好吃。

由于防御只需简之安康微调就能实现，先发觉、再修补之计策于实践中为可行之。

此名历程叫做"红队测试"（Red-Teaming），红队就为彼批专门找漏洞之者。

Web3。

旧俗GFN操练宗旨之核心公式，要求模型学会精确估计Z此名全局总量。

Stable-GFN之CTB法门通过同时较量两条语句之相待品质，让Z于计算中自抵消，完全不需估计它。

此让操练信号更稳固，梯度更准确。

此于安康领域为名大麻烦，因银行或不止有一名弱点，你只堵住一名，其他之依然洞开。

于此名测试里，CTB比旧俗TB收敛速度明显更快，也发觉之更多高品质之独特分子，验证之CTB于稀疏奖、大搜索方位场景下之普适性。

此种"较量式裁决"比"无对打分"要易得多，也稳固得多。

上一篇：“懂车更懂你”，上汽百余款展车整体亮相北京车展 下一篇：女子乘高铁被掉落行李箱砸到，索赔600元无果，箱子主者：已付CT查验费，该数额超过我应承担担当范围

韩国科技院与Naver AI：AI安康测试实现广度与精度双优本领提升 - 中国中央电视台

相关推荐