当前位置:文章 > 列表 > 正文

无需构造偏好对:TGO用标量回馈对齐视觉生成模型|ICML'26 - 北京市

📅 2026-05-20 21:52:03 🏷️ 硫酸钙网络地板 👁️ 774
无需构造偏好对:TGO用标量回馈对齐视觉生成模型|ICML

但疑难于于,pairwise preference不应为唯一接口。

多特蒙德队

图像或审美不错但文本对齐一般,也或构图准确但风格不够好;视频还要考虑运动为否自、主体为否稳固、光阴为否连贯。

叶光富。

同时,样本分数离阈值越远,说明督察越确定,操练权重也越大。

食品安全

它不要求每名prompt下皆有多名候选结局,也不要求者为构造偏好对。

生活。

更进一步,TGO还引入之confidence weighting。

校本

生成模型正进入更多确凿应用场景,而确凿场景里之回馈并不会总为以chosen/rejected pair之样貌现。

于视频生成上,TGO-LoRA也被用于Wan 1.3B+VideoReward之实验设置。

对于视觉生成来说,此名疑难更突出。

成对偏好仍然甚重要,于甚多差事里也仍然为最稳固、最直观之回馈样貌。

广州市

更多时候,体系拿到之为一名分数、一次点击、一次收藏、一次停留,或者一次修改。

Computer Architecture。

苍生较量两名回答哪名更好,甚多时候确实比直接打分更稳固。

结局显示,它不仅提升之整体VideoReward score,也改善之多名组件指标。

实在来说,TGO之法门看似简,但并非单纯拍一名阈值出来做二分类。

尤其为当苍生甚难给出无对分数,但能较量两名结局好坏时,pairwise preference仍然有甚强之实用身价。

龙泉窑

确凿货品里之回馈也更接近scalar或implicit feedback。

若对齐法门只能办理较量数据,就会错过大量自存之督察信号。

月日讯曼联热刺

对于diffusion model,它可结合MSE-style objective;对于MaskGIT风格之离散生成模型,它也可基于token likelihood做操练。

国产车

此对甚多现状差事为有意义之,因确凿数据里经常只有“此名结局不错”或者“此名结局不行”,而不为完整之两两较量。

但此名解里有一名 partition function,也就为归一化项,需对所有或输出求与,通常不可计算。

它更像为把确凿回馈里本来就存之讯息,以更直接之方式交给模型。

此些回馈大多为pointwise之。

故,TGO之章法可概括为两层:阈值决定更新方位,距离决定更新力度。

菲利普·迪亚洛

例如于一名batch内排序,把高分样本当作winner,低分样本当作loser;或者对同一prompt下多名候选结局两两较量,再构造chosen/rejected pair。

于此名宗旨里,模型不需显式操练reward model,也不需像PPO彼样做于线rollout,只要有离线之偏好对,就能成policy fitting。

PMPO关unpaired positive/negative feedback,QRPO关pointwise absolute reward之可解析policy fitting,而TGO则面向视觉生成模型,选择之一名更轻量之threshold预案。

视频生成更为如此。

此种做法当然可用,但它也会带来讯息损失。

对于视觉生成尤其如此。

简来说,就为从分数分布中估计一名阈值,高于阈值之样本被看作pseudo-positive,低于阈值之样本被看作pseudo-negative;操练时,模型提升前者相待reference model之概率,降低后者之概率。

最常见之选择为percentile threshold,比如中位数。

此些信号并不天然成对,却为模型改善极其重要之数据来源。

TGO先从scored dataset之分数分布中估计一名阈值。

言辞模型会有reward model score、verifiable reward、数学验证结局、代码通过率;图像模型会有审美分数、图文对齐分数、苍生评分;视频模型会有运动品质、光阴一致性与视频文本对齐;多模态体系还会有点击、收藏、停留、编辑等用户举止信号。

而本文《Threshold-Guided Optimization for Visual Generative Models》回答之亦为同一名疑难,只不过与PMPO、QRPO办理之为相同疑难之不同切面。

Consciousness。

QRPO之做法为把原始reward转成quantile reward。

过往几年,大模型post-training最主流之法门为让模型从“成对偏好”中修习。

Hard Tech。

但于确凿场景中,回馈大多皆为单名样本之标量分数。

因此,TGO处置之为如何更直接地使用scalar feedback,而不为替代回馈建模本身。

DPO之故能成为偏好改良里之代表法门,一名枢纽缘由为它把原本繁之KL-regularized RL objective,改写成之一名可直接操练之分类宗旨。

对于视觉生成模型,只要找到一名合理之阈值,就可把标量分数转成更新方位;再用分数离阈值之距离,衡量此名督察信号有多可信。

监督者。

之后,所有分数高于阈值之样本被视为pseudo-positive,低于阈值之样本被视为pseudo-negative。

TGO给出之解答甚直接:不必要把它们皆折叠成winner与loser。

陈冬。
豫法阳光

此条路线之要点,为回馈架构更灵活。

两名输出一较量,难算之项就灭之,疑难也就变成之一名相待概率之分类疑难。

它或于审美上甚好,但prompt alignment稍弱;也或语义准确,但构图寻常;还有一些偏好更我见,比如风格、色调、者物姿态、底色繁度。

DPO之做法为用成对较量让它抵消掉;QRPO之做法为通过quantile transformation让partition function变得可解析;TGO则选择用一名data-driven global threshold来近似它。

张腾飞

于为模型可用一名简之pointwise regression objective,直接拟合KL-regularized objective之最优计策,而不需依赖成对较量来抵消归一化项。

美伊

寻常二值化只保留正负标签,而TGO之confidence weighting续使用之分数离阈值之程度。

但于视觉生成里,情况并不完全一样。

尤文图斯队

生成模型对齐之下一步,或不只为续问“哪名更好”。

但此名oracle baseline与partition function有关,通常不可计算。

于营村

此就引出一名疑难:对于一名给定样本,最优计策到底应提升它之概率,还为降低它之概率。

珍爱生命。
埃尔切队

它没有把疑难繁化,而为用一名甚克制之方式,把标量回馈接进之KL-regularized alignment objective。

标量分数仍然需与宗旨偏好足够相关;若打分器有偏或噪声较大,阈值产生之pseudo-label也会承袭此些偏差。

视觉生成对齐里,一名常见担忧为reward hacking:模型或只为把某一名reward model刷高之,但生成品质并没有真正改善。

首先为Google DeepMind最近发布之《Preference Optimization as Probabilistic Inference》一文。

目前该研讨已被ICML 2026接收,它让生成模型对齐不再只依赖“哪名更好”,而为始直接使用“此名有多好”。

TGO针对之正为此名缺口。

彼么为什么此件事如今值得被认真对待呢。

言辞模型里,成对偏好甚自。

图像与视频之品质,本来就不为非黑即白之裁决,而为审美、语义、架构、运动、风格与个人偏好之统合结局。

操练时,模型修习调理自己相待于reference model之log-likelihood ratio:对pseudo-positive样本提升,对pseudo-negative样本降低。

它之出发点为,模型并不必需看到严格配对之preferred/dis-preferred samples,才能修习偏好。

此让视觉生成模型之对齐,更接近确凿回馈之收集方式。

此些信号看起来零散,却或构成下一阶段post-training之主要数据来源。

前者包括Stable Diffusion v1.5、FLUX、Wan 1.3B等常见模型,后者则包括Meissonic此样之masked generative transformer。

曼联

需注意之为,TGO并不除去对回馈品质之依赖。

直接从scalar feedback中修习,或比先构造成对偏好更自,也更易扩展。

量子位 | 公众号 QbitAI PMPO、QRPO与TGO之共同意义,正于把偏好改良从pairwise supervision扩展到更一般之feedback optimization。

用户或点赞、收藏、点击、停留、打分,或者对生成结局做二次编辑。

改天换地。

于图像生成实验中,TGO于Pick-a-Pic、PartiPrompts与HPSv2等测试集上进行估量,并用HPSv2.1、PickScore、ImageReward、CLIPScore、LAION Aesthetic Score等多名reward model作为评议指标。

男子30年前被扣押2859克黄金未返还

它们不告诉模型“此名比另一名更好”,而为告诉模型“此名结局本身有多好”。

品牌

但随之生成模型进入更繁之应用场景,回馈本身正变得更加多样。

若reward高于此名baseline,彼么模型应提升该样本相待reference model之概率;若reward低于baseline,就应降低它之概率。

DPO之优雅,来自pairwise data 为此,新加坡国立大学团队提出之一名更为直接之解法:Threshold-Guided Optimization(TGO),一种不依赖成对偏好数据、直接使用独力样本标量评分进行对齐之新范式。

当前后两名样本差距甚小、评分噪声又较量大时,此种者为构造出来之偏好对未必可靠,甚至或放大过失督察。

百川东到海,何时复西归?

三条路线,皆于放松pairwise约束 于KL正则化之对齐宗旨下,最优计策可写成一名closed-form solution。

图像与视频之品质甚少为简之二元裁决。

一旦督察信号不再为pair,而为单名样本之scalar score,原来靠“两两相减”抵消partition function之办法就不再直接成立。

黄风

[3] Threshold-Guided Optimization for Visual Generative Models, https://arxiv.org/abs/2605.04653 从图像到视频:TGO于多种视觉生成范式上验证 为什么视觉生成尤其适合scalar feedback TGO之身价就于此里。

而为要让模型真正学会体谅:此名结局到底有多好。

法门上,它基于EM-style policy improvement,把宗旨写成三名部分:提升preferred samples之likelihood,降低dis-preferred samples之likelihood,同时让新计策保接近reference policy。

Flink。存储器

把此些信号强行压成一名pairwise preference,往往会损失甚多细节。

理论上,它用阅历阈值近似不可计算之oracle baseline;营造上,它只需scored samples就能操练;实践上,它能同时覆盖diffusion与masked generative paradigms,并于图像与视频差事上带来稳固提升。

自我革命。

换句话说,TGO更像为一种通用之scalar-feedback alignment framework,而不为某名特定架构上之技巧。

于理论上,此取决于它之reward为否超过某名instance-specific oracle baseline。

不为替代DPO,而为补上另一种回馈接口 若吾等手里有之不为正负标签,而为pointwise absolute reward,能不能直接做 policy fitting。

但TGO并不为要否决DPO。

DPO能绕开此名疑难,为因于同一名prompt下较量preferred output与rejected output时,此名partition function会于reward difference里自抵消。

甚多时候,一名连续分数比一名winner/loser标签更接近确凿回馈。

引领。等我回来

它背后之推导来自KL-regularized alignment objective。

此或为生成模型对齐接下来甚重要之一步:模型不能只会从“谁赢之”中修习,也要能从“此名结局有多好”中修习。

欧洲杯。

评分、通过率、奖模型输出、用户举止日志、编辑操作,此些pointwise signals会越来越常见。

学校

也就为说,DPO之简洁,甚大程度上来自成对偏好数据本身。

[2] Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions, https://arxiv.org/abs/2507.08068 一张图好不好,往往不为一名简之“胜过另一张图”就能说明。

因生成模型越往货品里走,回馈形态就越繁。

[1] Preference Optimization as Probabilistic Inference, https://arxiv.org/abs/2410.04166 一名9.5分样本与一名7.5分样本,于pairwise操练里或皆只为winner;一名4.9分样本与一名4.8分样本,也或被硬拆成一组winner与loser。

何亚东

DPO之故能成为偏好改良里之代表法门,一名枢纽缘由为它把原本繁之KL-regularized RL objective,改写成之一名可直接操练之分类宗旨。

Leadership。

此样一来,TGO并没有完全丢掉标量分数之幅度讯息,而为把分数大小转变成之督察强度。

结局显示,相比SFT、CSFT、AlignProp、Diffusion-DPO、Diffusion-KTO、DSPO等法门,TGO于多名设置下皆能取得更高之reward-model scores。

商务部

此样,于reference policy下,quantile reward之分布会变成uniform distribution,partition function也就有之解析样貌。

旧俗DPO需一名prompt下之chosen与rejected配成一对,而PMPO允许正负样本不成对现,也允许数据分布不均衡。

此并不为一名繁之体系,也不为一名重型RL pipeline。

总之来说,过往,偏好改良之主流接口为pairwise comparison。

Life。

只要有preferred examples或dis-preferred examples,甚至只有其中一种回馈,也可进行改良。

此名接口足够清晰,也催生之DPO/GRPO此样简有效之法门。

若说DPO让偏好改良摆脱之繁RL,彼么TGO、QRPO与PMPO此一类工,正让偏好改良进一步摆脱对成对较量之强依赖。

此说明threshold-guided scalar feedback不只为图像生成里之一名局部法门,也有潜力扩展到视频生成。

TGO于多名reward model 上皆有提升,说明它并不为单纯拟合某名打分器,而为于更广泛之视觉偏好维度上带来之改善。

论文之实验覆盖之两类视觉生成范式:一类为diffusion-based models,另一类为masked generative models。

Techno-ethics。

TGO之核心:用阈值近似baseline 早期之对齐研讨可设想有洁之偏好对,但确凿用户不会总为配合体系做A/B comparison。

此说明TGO并不为只适配某一种模型架构。

公共外交。

生成模型之偏好对齐,或正进入一名新之阶段。

论文《Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions》则处置之为另一名方位之疑难: 对于视觉生成此种评分噪声较大、品质分布连续之差事,此一点甚重要。

分数离阈值越远,说明此名样本被判为正例或负例之置信度越高,它对操练之贡献也应越大。

此些因素叠于一起,更适合被表达成一名连续分数,或者多名维度之评分。

Science。

至于研讨团队新提出之TGO,也并非孤立现。

此背后仍然绕不开partition function。

分数接近阈值之样本则更模糊,操练时权重更低。

于为实践中常见之做法,为把标量分数转成偏好对。

但无论为RLHF还为DPO,皆存同一名疑难:回馈须成对现。

马克斯

三者之共同点,为皆于把偏好改良从“须有pair”此名先决里松开。

文化强国。

PMPO说明,未配对之正负回馈可被纳入概率推断式之policy improvement;QRPO说明,无对奖也可通过quantile reward进入可解析之policy fitting;TGO则说明,于视觉生成里,一名阅历阈值加置信度权重,就足以把scalar score转成有效之对齐信号。

最近领域内好几篇工其实皆于回应同一名疑难:偏好改良能不能不再强依赖成对偏好。

视频不仅要看单帧品质,还要看运动合理性、光阴一致性、主体稳固性、镜头变化以及文本对齐。

它背后之数学架构也甚清楚: 但此名优势也反过来限制之它之适用范围。

若对齐法门只能办理winner/loser,就甚难充分使用此类回馈。

此也为它与寻常二值化之区别。

只要每名样本有一名分数,就可进入操练。

教育学。

上一篇:欧洲航空燃油本金压力攀升,汉莎将停飞数十架老旧飞鸟 下一篇:科曼:巴萨比赛之判罚值得讨论;若我为教练我更对卡马文加怒