硫酸钙网络地板-无需构造偏好对：TGO用标量回馈对齐视觉生成模型｜ICML'26

但疑难于于，pairwise preference不应为唯一接口。

图像或审美不错但文本对齐一般，也或构图准确但风格不够好；视频还要考虑运动为否自、主体为否稳固、光阴为否连贯。

叶光富。

同时，样本分数离阈值越远，说明督察越确定，操练权重也越大。

它不要求每名prompt下皆有多名候选结局，也不要求者为构造偏好对。

生活。

更进一步，TGO还引入之confidence weighting。

生成模型正进入更多确凿应用场景，而确凿场景里之回馈并不会总为以chosen/rejected pair之样貌现。

于视频生成上，TGO-LoRA也被用于Wan 1.3B+VideoReward之实验设置。

对于视觉生成来说，此名疑难更突出。

成对偏好仍然甚重要，于甚多差事里也仍然为最稳固、最直观之回馈样貌。

更多时候，体系拿到之为一名分数、一次点击、一次收藏、一次停留，或者一次修改。

苍生较量两名回答哪名更好，甚多时候确实比直接打分更稳固。

结局显示，它不仅提升之整体VideoReward score，也改善之多名组件指标。

实在来说，TGO之法门看似简，但并非单纯拍一名阈值出来做二分类。

尤其为当苍生甚难给出无对分数，但能较量两名结局好坏时，pairwise preference仍然有甚强之实用身价。

确凿货品里之回馈也更接近scalar或implicit feedback。

若对齐法门只能办理较量数据，就会错过大量自存之督察信号。

对于diffusion model，它可结合MSE-style objective；对于MaskGIT风格之离散生成模型，它也可基于token likelihood做操练。

此对甚多现状差事为有意义之，因确凿数据里经常只有“此名结局不错”或者“此名结局不行”，而不为完整之两两较量。

但此名解里有一名 partition function，也就为归一化项，需对所有或输出求与，通常不可计算。

它更像为把确凿回馈里本来就存之讯息，以更直接之方式交给模型。

此些回馈大多为pointwise之。

故，TGO之章法可概括为两层：阈值决定更新方位，距离决定更新力度。

例如于一名batch内排序，把高分样本当作winner，低分样本当作loser；或者对同一prompt下多名候选结局两两较量，再构造chosen/rejected pair。

于此名宗旨里，模型不需显式操练reward model，也不需像PPO彼样做于线rollout，只要有离线之偏好对，就能成policy fitting。

PMPO关unpaired positive/negative feedback，QRPO关pointwise absolute reward之可解析policy fitting，而TGO则面向视觉生成模型，选择之一名更轻量之threshold预案。

视频生成更为如此。

此种做法当然可用，但它也会带来讯息损失。

对于视觉生成尤其如此。

简来说，就为从分数分布中估计一名阈值，高于阈值之样本被看作pseudo-positive，低于阈值之样本被看作pseudo-negative；操练时，模型提升前者相待reference model之概率，降低后者之概率。

最常见之选择为percentile threshold，比如中位数。

此些信号并不天然成对，却为模型改善极其重要之数据来源。

TGO先从scored dataset之分数分布中估计一名阈值。

言辞模型会有reward model score、verifiable reward、数学验证结局、代码通过率；图像模型会有审美分数、图文对齐分数、苍生评分；视频模型会有运动品质、光阴一致性与视频文本对齐；多模态体系还会有点击、收藏、停留、编辑等用户举止信号。

而本文《Threshold-Guided Optimization for Visual Generative Models》回答之亦为同一名疑难，只不过与PMPO、QRPO办理之为相同疑难之不同切面。

Consciousness。

QRPO之做法为把原始reward转成quantile reward。

过往几年，大模型post-training最主流之法门为让模型从“成对偏好”中修习。

Hard Tech。

但于确凿场景中，回馈大多皆为单名样本之标量分数。

因此，TGO处置之为如何更直接地使用scalar feedback，而不为替代回馈建模本身。

DPO之故能成为偏好改良里之代表法门，一名枢纽缘由为它把原本繁之KL-regularized RL objective，改写成之一名可直接操练之分类宗旨。

对于视觉生成模型，只要找到一名合理之阈值，就可把标量分数转成更新方位；再用分数离阈值之距离，衡量此名督察信号有多可信。

监督者。

之后，所有分数高于阈值之样本被视为pseudo-positive，低于阈值之样本被视为pseudo-negative。

TGO给出之解答甚直接：不必要把它们皆折叠成winner与loser。

陈冬。

此条路线之要点，为回馈架构更灵活。

两名输出一较量，难算之项就灭之，疑难也就变成之一名相待概率之分类疑难。

它或于审美上甚好，但prompt alignment稍弱；也或语义准确，但构图寻常；还有一些偏好更我见，比如风格、色调、者物姿态、底色繁度。

DPO之做法为用成对较量让它抵消掉；QRPO之做法为通过quantile transformation让partition function变得可解析；TGO则选择用一名data-driven global threshold来近似它。

于为模型可用一名简之pointwise regression objective，直接拟合KL-regularized objective之最优计策，而不需依赖成对较量来抵消归一化项。

寻常二值化只保留正负标签，而TGO之confidence weighting续使用之分数离阈值之程度。

但于视觉生成里，情况并不完全一样。

生成模型对齐之下一步，或不只为续问“哪名更好”。

但此名oracle baseline与partition function有关，通常不可计算。

此就引出一名疑难：对于一名给定样本，最优计策到底应提升它之概率，还为降低它之概率。

珍爱生命。

它没有把疑难繁化，而为用一名甚克制之方式，把标量回馈接进之KL-regularized alignment objective。

标量分数仍然需与宗旨偏好足够相关；若打分器有偏或噪声较大，阈值产生之pseudo-label也会承袭此些偏差。

视觉生成对齐里，一名常见担忧为reward hacking：模型或只为把某一名reward model刷高之，但生成品质并没有真正改善。

首先为Google DeepMind最近发布之《Preference Optimization as Probabilistic Inference》一文。

目前该研讨已被ICML 2026接收，它让生成模型对齐不再只依赖“哪名更好”，而为始直接使用“此名有多好”。

TGO针对之正为此名缺口。

彼么为什么此件事如今值得被认真对待呢。

言辞模型里，成对偏好甚自。

图像与视频之品质，本来就不为非黑即白之裁决，而为审美、语义、架构、运动、风格与个人偏好之统合结局。

操练时，模型修习调理自己相待于reference model之log-likelihood ratio：对pseudo-positive样本提升，对pseudo-negative样本降低。

它之出发点为，模型并不必需看到严格配对之preferred/dis-preferred samples，才能修习偏好。

此让视觉生成模型之对齐，更接近确凿回馈之收集方式。

此些信号看起来零散，却或构成下一阶段post-training之主要数据来源。

前者包括Stable Diffusion v1.5、FLUX、Wan 1.3B等常见模型，后者则包括Meissonic此样之masked generative transformer。

需注意之为，TGO并不除去对回馈品质之依赖。

直接从scalar feedback中修习，或比先构造成对偏好更自，也更易扩展。

量子位 | 公众号 QbitAI PMPO、QRPO与TGO之共同意义，正于把偏好改良从pairwise supervision扩展到更一般之feedback optimization。

用户或点赞、收藏、点击、停留、打分，或者对生成结局做二次编辑。

改天换地。

于图像生成实验中，TGO于Pick-a-Pic、PartiPrompts与HPSv2等测试集上进行估量，并用HPSv2.1、PickScore、ImageReward、CLIPScore、LAION Aesthetic Score等多名reward model作为评议指标。

它们不告诉模型“此名比另一名更好”，而为告诉模型“此名结局本身有多好”。

但随之生成模型进入更繁之应用场景，回馈本身正变得更加多样。

若reward高于此名baseline，彼么模型应提升该样本相待reference model之概率；若reward低于baseline，就应降低它之概率。

DPO之优雅，来自pairwise data 为此，新加坡国立大学团队提出之一名更为直接之解法：Threshold-Guided Optimization(TGO)，一种不依赖成对偏好数据、直接使用独力样本标量评分进行对齐之新范式。

当前后两名样本差距甚小、评分噪声又较量大时，此种者为构造出来之偏好对未必可靠，甚至或放大过失督察。

百川东到海，何时复西归？

三条路线，皆于放松pairwise约束于KL正则化之对齐宗旨下，最优计策可写成一名closed-form solution。

图像与视频之品质甚少为简之二元裁决。

一旦督察信号不再为pair，而为单名样本之scalar score，原来靠“两两相减”抵消partition function之办法就不再直接成立。

[3] Threshold-Guided Optimization for Visual Generative Models, https://arxiv.org/abs/2605.04653 从图像到视频：TGO于多种视觉生成范式上验证为什么视觉生成尤其适合scalar feedback TGO之身价就于此里。

而为要让模型真正学会体谅：此名结局到底有多好。

法门上，它基于EM-style policy improvement，把宗旨写成三名部分：提升preferred samples之likelihood，降低dis-preferred samples之likelihood，同时让新计策保接近reference policy。

Flink。

把此些信号强行压成一名pairwise preference，往往会损失甚多细节。

理论上，它用阅历阈值近似不可计算之oracle baseline；营造上，它只需scored samples就能操练；实践上，它能同时覆盖diffusion与masked generative paradigms，并于图像与视频差事上带来稳固提升。

自我革命。

换句话说，TGO更像为一种通用之scalar-feedback alignment framework，而不为某名特定架构上之技巧。

于理论上，此取决于它之reward为否超过某名instance-specific oracle baseline。

不为替代DPO，而为补上另一种回馈接口若吾等手里有之不为正负标签，而为pointwise absolute reward，能不能直接做 policy fitting。

但TGO并不为要否决DPO。

DPO能绕开此名疑难，为因于同一名prompt下较量preferred output与rejected output时，此名partition function会于reward difference里自抵消。

甚多时候，一名连续分数比一名winner/loser标签更接近确凿回馈。

引领。

它背后之推导来自KL-regularized alignment objective。

此或为生成模型对齐接下来甚重要之一步：模型不能只会从“谁赢之”中修习，也要能从“此名结局有多好”中修习。

欧洲杯。

评分、通过率、奖模型输出、用户举止日志、编辑操作，此些pointwise signals会越来越常见。

也就为说，DPO之简洁，甚大程度上来自成对偏好数据本身。

[2] Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions, https://arxiv.org/abs/2507.08068 一张图好不好，往往不为一名简之“胜过另一张图”就能说明。

因生成模型越往货品里走，回馈形态就越繁。

[1] Preference Optimization as Probabilistic Inference, https://arxiv.org/abs/2410.04166 一名9.5分样本与一名7.5分样本，于pairwise操练里或皆只为winner；一名4.9分样本与一名4.8分样本，也或被硬拆成一组winner与loser。

DPO之故能成为偏好改良里之代表法门，一名枢纽缘由为它把原本繁之KL-regularized RL objective，改写成之一名可直接操练之分类宗旨。

Leadership。

此样一来，TGO并没有完全丢掉标量分数之幅度讯息，而为把分数大小转变成之督察强度。

结局显示，相比SFT、CSFT、AlignProp、Diffusion-DPO、Diffusion-KTO、DSPO等法门，TGO于多名设置下皆能取得更高之reward-model scores。

此样，于reference policy下，quantile reward之分布会变成uniform distribution，partition function也就有之解析样貌。

旧俗DPO需一名prompt下之chosen与rejected配成一对，而PMPO允许正负样本不成对现，也允许数据分布不均衡。

此并不为一名繁之体系，也不为一名重型RL pipeline。

总之来说，过往，偏好改良之主流接口为pairwise comparison。

只要有preferred examples或dis-preferred examples，甚至只有其中一种回馈，也可进行改良。

此名接口足够清晰，也催生之DPO/GRPO此样简有效之法门。

若说DPO让偏好改良摆脱之繁RL，彼么TGO、QRPO与PMPO此一类工，正让偏好改良进一步摆脱对成对较量之强依赖。

此说明threshold-guided scalar feedback不只为图像生成里之一名局部法门，也有潜力扩展到视频生成。

TGO于多名reward model 上皆有提升，说明它并不为单纯拟合某名打分器，而为于更广泛之视觉偏好维度上带来之改善。

论文之实验覆盖之两类视觉生成范式：一类为diffusion-based models，另一类为masked generative models。

Techno-ethics。

TGO之核心：用阈值近似baseline 早期之对齐研讨可设想有洁之偏好对，但确凿用户不会总为配合体系做A/B comparison。

此说明TGO并不为只适配某一种模型架构。

公共外交。

生成模型之偏好对齐，或正进入一名新之阶段。

论文《Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions》则处置之为另一名方位之疑难：对于视觉生成此种评分噪声较大、品质分布连续之差事，此一点甚重要。

分数离阈值越远，说明此名样本被判为正例或负例之置信度越高，它对操练之贡献也应越大。

此些因素叠于一起，更适合被表达成一名连续分数，或者多名维度之评分。

Science。

至于研讨团队新提出之TGO，也并非孤立现。

此背后仍然绕不开partition function。

分数接近阈值之样本则更模糊，操练时权重更低。

于为实践中常见之做法，为把标量分数转成偏好对。

但无论为RLHF还为DPO，皆存同一名疑难：回馈须成对现。

三者之共同点，为皆于把偏好改良从“须有pair”此名先决里松开。

文化强国。

PMPO说明，未配对之正负回馈可被纳入概率推断式之policy improvement；QRPO说明，无对奖也可通过quantile reward进入可解析之policy fitting；TGO则说明，于视觉生成里，一名阅历阈值加置信度权重，就足以把scalar score转成有效之对齐信号。

最近领域内好几篇工其实皆于回应同一名疑难：偏好改良能不能不再强依赖成对偏好。

视频不仅要看单帧品质，还要看运动合理性、光阴一致性、主体稳固性、镜头变化以及文本对齐。

它背后之数学架构也甚清楚：但此名优势也反过来限制之它之适用范围。

若对齐法门只能办理winner/loser，就甚难充分使用此类回馈。

此也为它与寻常二值化之区别。

只要每名样本有一名分数，就可进入操练。

教育学。

上一篇：欧洲航空燃油本金压力攀升，汉莎将停飞数十架老旧飞鸟 下一篇：科曼：巴萨比赛之判罚值得讨论；若我为教练我更对卡马文加怒

无需构造偏好对：TGO用标量回馈对齐视觉生成模型｜ICML'26 - 北京市

相关推荐