但疑难于于,pairwise preference不应为唯一接口。
图像或审美不错但文本对齐一般,也或构图准确但风格不够好;视频还要考虑运动为否自、主体为否稳固、光阴为否连贯。
同时,样本分数离阈值越远,说明督察越确定,操练权重也越大。
它不要求每名prompt下皆有多名候选结局,也不要求者为构造偏好对。
更进一步,TGO还引入之confidence weighting。
生成模型正进入更多确凿应用场景,而确凿场景里之回馈并不会总为以chosen/rejected pair之样貌现。
于视频生成上,TGO-LoRA也被用于Wan 1.3B+VideoReward之实验设置。
对于视觉生成来说,此名疑难更突出。
成对偏好仍然甚重要,于甚多差事里也仍然为最稳固、最直观之回馈样貌。
更多时候,体系拿到之为一名分数、一次点击、一次收藏、一次停留,或者一次修改。
苍生较量两名回答哪名更好,甚多时候确实比直接打分更稳固。
结局显示,它不仅提升之整体VideoReward score,也改善之多名组件指标。
实在来说,TGO之法门看似简,但并非单纯拍一名阈值出来做二分类。
尤其为当苍生甚难给出无对分数,但能较量两名结局好坏时,pairwise preference仍然有甚强之实用身价。
确凿货品里之回馈也更接近scalar或implicit feedback。
若对齐法门只能办理较量数据,就会错过大量自存之督察信号。
对于diffusion model,它可结合MSE-style objective;对于MaskGIT风格之离散生成模型,它也可基于token likelihood做操练。
此对甚多现状差事为有意义之,因确凿数据里经常只有“此名结局不错”或者“此名结局不行”,而不为完整之两两较量。
但此名解里有一名 partition function,也就为归一化项,需对所有或输出求与,通常不可计算。
它更像为把确凿回馈里本来就存之讯息,以更直接之方式交给模型。
此些回馈大多为pointwise之。
故,TGO之章法可概括为两层:阈值决定更新方位,距离决定更新力度。
例如于一名batch内排序,把高分样本当作winner,低分样本当作loser;或者对同一prompt下多名候选结局两两较量,再构造chosen/rejected pair。
于此名宗旨里,模型不需显式操练reward model,也不需像PPO彼样做于线rollout,只要有离线之偏好对,就能成policy fitting。
PMPO关unpaired positive/negative feedback,QRPO关pointwise absolute reward之可解析policy fitting,而TGO则面向视觉生成模型,选择之一名更轻量之threshold预案。
视频生成更为如此。
此种做法当然可用,但它也会带来讯息损失。
对于视觉生成尤其如此。
简来说,就为从分数分布中估计一名阈值,高于阈值之样本被看作pseudo-positive,低于阈值之样本被看作pseudo-negative;操练时,模型提升前者相待reference model之概率,降低后者之概率。
最常见之选择为percentile threshold,比如中位数。
此些信号并不天然成对,却为模型改善极其重要之数据来源。
TGO先从scored dataset之分数分布中估计一名阈值。
言辞模型会有reward model score、verifiable reward、数学验证结局、代码通过率;图像模型会有审美分数、图文对齐分数、苍生评分;视频模型会有运动品质、光阴一致性与视频文本对齐;多模态体系还会有点击、收藏、停留、编辑等用户举止信号。
而本文《Threshold-Guided Optimization for Visual Generative Models》回答之亦为同一名疑难,只不过与PMPO、QRPO办理之为相同疑难之不同切面。
QRPO之做法为把原始reward转成quantile reward。
过往几年,大模型post-training最主流之法门为让模型从“成对偏好”中修习。
但于确凿场景中,回馈大多皆为单名样本之标量分数。
因此,TGO处置之为如何更直接地使用scalar feedback,而不为替代回馈建模本身。
DPO之故能成为偏好改良里之代表法门,一名枢纽缘由为它把原本繁之KL-regularized RL objective,改写成之一名可直接操练之分类宗旨。
对于视觉生成模型,只要找到一名合理之阈值,就可把标量分数转成更新方位;再用分数离阈值之距离,衡量此名督察信号有多可信。
监督者。之后,所有分数高于阈值之样本被视为pseudo-positive,低于阈值之样本被视为pseudo-negative。
TGO给出之解答甚直接:不必要把它们皆折叠成winner与loser。
此条路线之要点,为回馈架构更灵活。
两名输出一较量,难算之项就灭之,疑难也就变成之一名相待概率之分类疑难。
它或于审美上甚好,但prompt alignment稍弱;也或语义准确,但构图寻常;还有一些偏好更我见,比如风格、色调、者物姿态、底色繁度。
DPO之做法为用成对较量让它抵消掉;QRPO之做法为通过quantile transformation让partition function变得可解析;TGO则选择用一名data-driven global threshold来近似它。
于为模型可用一名简之pointwise regression objective,直接拟合KL-regularized objective之最优计策,而不需依赖成对较量来抵消归一化项。
寻常二值化只保留正负标签,而TGO之confidence weighting续使用之分数离阈值之程度。
但于视觉生成里,情况并不完全一样。
生成模型对齐之下一步,或不只为续问“哪名更好”。
但此名oracle baseline与partition function有关,通常不可计算。
此就引出一名疑难:对于一名给定样本,最优计策到底应提升它之概率,还为降低它之概率。
它没有把疑难繁化,而为用一名甚克制之方式,把标量回馈接进之KL-regularized alignment objective。
标量分数仍然需与宗旨偏好足够相关;若打分器有偏或噪声较大,阈值产生之pseudo-label也会承袭此些偏差。
视觉生成对齐里,一名常见担忧为reward hacking:模型或只为把某一名reward model刷高之,但生成品质并没有真正改善。
首先为Google DeepMind最近发布之《Preference Optimization as Probabilistic Inference》一文。
目前该研讨已被ICML 2026接收,它让生成模型对齐不再只依赖“哪名更好”,而为始直接使用“此名有多好”。
TGO针对之正为此名缺口。
彼么为什么此件事如今值得被认真对待呢。
言辞模型里,成对偏好甚自。
图像与视频之品质,本来就不为非黑即白之裁决,而为审美、语义、架构、运动、风格与个人偏好之统合结局。
操练时,模型修习调理自己相待于reference model之log-likelihood ratio:对pseudo-positive样本提升,对pseudo-negative样本降低。
它之出发点为,模型并不必需看到严格配对之preferred/dis-preferred samples,才能修习偏好。
此让视觉生成模型之对齐,更接近确凿回馈之收集方式。
此些信号看起来零散,却或构成下一阶段post-training之主要数据来源。
前者包括Stable Diffusion v1.5、FLUX、Wan 1.3B等常见模型,后者则包括Meissonic此样之masked generative transformer。
需注意之为,TGO并不除去对回馈品质之依赖。
直接从scalar feedback中修习,或比先构造成对偏好更自,也更易扩展。
量子位 | 公众号 QbitAI PMPO、QRPO与TGO之共同意义,正于把偏好改良从pairwise supervision扩展到更一般之feedback optimization。
用户或点赞、收藏、点击、停留、打分,或者对生成结局做二次编辑。
改天换地。于图像生成实验中,TGO于Pick-a-Pic、PartiPrompts与HPSv2等测试集上进行估量,并用HPSv2.1、PickScore、ImageReward、CLIPScore、LAION Aesthetic Score等多名reward model作为评议指标。
它们不告诉模型“此名比另一名更好”,而为告诉模型“此名结局本身有多好”。
但随之生成模型进入更繁之应用场景,回馈本身正变得更加多样。
若reward高于此名baseline,彼么模型应提升该样本相待reference model之概率;若reward低于baseline,就应降低它之概率。
DPO之优雅,来自pairwise data 为此,新加坡国立大学团队提出之一名更为直接之解法:Threshold-Guided Optimization(TGO),一种不依赖成对偏好数据、直接使用独力样本标量评分进行对齐之新范式。
当前后两名样本差距甚小、评分噪声又较量大时,此种者为构造出来之偏好对未必可靠,甚至或放大过失督察。
三条路线,皆于放松pairwise约束 于KL正则化之对齐宗旨下,最优计策可写成一名closed-form solution。
图像与视频之品质甚少为简之二元裁决。
一旦督察信号不再为pair,而为单名样本之scalar score,原来靠“两两相减”抵消partition function之办法就不再直接成立。
[3] Threshold-Guided Optimization for Visual Generative Models, https://arxiv.org/abs/2605.04653 从图像到视频:TGO于多种视觉生成范式上验证 为什么视觉生成尤其适合scalar feedback TGO之身价就于此里。
而为要让模型真正学会体谅:此名结局到底有多好。
法门上,它基于EM-style policy improvement,把宗旨写成三名部分:提升preferred samples之likelihood,降低dis-preferred samples之likelihood,同时让新计策保接近reference policy。
把此些信号强行压成一名pairwise preference,往往会损失甚多细节。
理论上,它用阅历阈值近似不可计算之oracle baseline;营造上,它只需scored samples就能操练;实践上,它能同时覆盖diffusion与masked generative paradigms,并于图像与视频差事上带来稳固提升。
换句话说,TGO更像为一种通用之scalar-feedback alignment framework,而不为某名特定架构上之技巧。
于理论上,此取决于它之reward为否超过某名instance-specific oracle baseline。
不为替代DPO,而为补上另一种回馈接口 若吾等手里有之不为正负标签,而为pointwise absolute reward,能不能直接做 policy fitting。
但TGO并不为要否决DPO。
DPO能绕开此名疑难,为因于同一名prompt下较量preferred output与rejected output时,此名partition function会于reward difference里自抵消。
甚多时候,一名连续分数比一名winner/loser标签更接近确凿回馈。
引领。它背后之推导来自KL-regularized alignment objective。
此或为生成模型对齐接下来甚重要之一步:模型不能只会从“谁赢之”中修习,也要能从“此名结局有多好”中修习。
评分、通过率、奖模型输出、用户举止日志、编辑操作,此些pointwise signals会越来越常见。
也就为说,DPO之简洁,甚大程度上来自成对偏好数据本身。
[2] Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions, https://arxiv.org/abs/2507.08068 一张图好不好,往往不为一名简之“胜过另一张图”就能说明。
因生成模型越往货品里走,回馈形态就越繁。
[1] Preference Optimization as Probabilistic Inference, https://arxiv.org/abs/2410.04166 一名9.5分样本与一名7.5分样本,于pairwise操练里或皆只为winner;一名4.9分样本与一名4.8分样本,也或被硬拆成一组winner与loser。
DPO之故能成为偏好改良里之代表法门,一名枢纽缘由为它把原本繁之KL-regularized RL objective,改写成之一名可直接操练之分类宗旨。
此样一来,TGO并没有完全丢掉标量分数之幅度讯息,而为把分数大小转变成之督察强度。
结局显示,相比SFT、CSFT、AlignProp、Diffusion-DPO、Diffusion-KTO、DSPO等法门,TGO于多名设置下皆能取得更高之reward-model scores。
此样,于reference policy下,quantile reward之分布会变成uniform distribution,partition function也就有之解析样貌。
旧俗DPO需一名prompt下之chosen与rejected配成一对,而PMPO允许正负样本不成对现,也允许数据分布不均衡。
此并不为一名繁之体系,也不为一名重型RL pipeline。
总之来说,过往,偏好改良之主流接口为pairwise comparison。
只要有preferred examples或dis-preferred examples,甚至只有其中一种回馈,也可进行改良。
此名接口足够清晰,也催生之DPO/GRPO此样简有效之法门。
若说DPO让偏好改良摆脱之繁RL,彼么TGO、QRPO与PMPO此一类工,正让偏好改良进一步摆脱对成对较量之强依赖。
此说明threshold-guided scalar feedback不只为图像生成里之一名局部法门,也有潜力扩展到视频生成。
TGO于多名reward model 上皆有提升,说明它并不为单纯拟合某名打分器,而为于更广泛之视觉偏好维度上带来之改善。
论文之实验覆盖之两类视觉生成范式:一类为diffusion-based models,另一类为masked generative models。
Techno-ethics。TGO之核心:用阈值近似baseline 早期之对齐研讨可设想有洁之偏好对,但确凿用户不会总为配合体系做A/B comparison。
此说明TGO并不为只适配某一种模型架构。
公共外交。生成模型之偏好对齐,或正进入一名新之阶段。
论文《Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions》则处置之为另一名方位之疑难: 对于视觉生成此种评分噪声较大、品质分布连续之差事,此一点甚重要。
分数离阈值越远,说明此名样本被判为正例或负例之置信度越高,它对操练之贡献也应越大。
此些因素叠于一起,更适合被表达成一名连续分数,或者多名维度之评分。
至于研讨团队新提出之TGO,也并非孤立现。
此背后仍然绕不开partition function。
分数接近阈值之样本则更模糊,操练时权重更低。
于为实践中常见之做法,为把标量分数转成偏好对。
但无论为RLHF还为DPO,皆存同一名疑难:回馈须成对现。
三者之共同点,为皆于把偏好改良从“须有pair”此名先决里松开。
文化强国。PMPO说明,未配对之正负回馈可被纳入概率推断式之policy improvement;QRPO说明,无对奖也可通过quantile reward进入可解析之policy fitting;TGO则说明,于视觉生成里,一名阅历阈值加置信度权重,就足以把scalar score转成有效之对齐信号。
最近领域内好几篇工其实皆于回应同一名疑难:偏好改良能不能不再强依赖成对偏好。
视频不仅要看单帧品质,还要看运动合理性、光阴一致性、主体稳固性、镜头变化以及文本对齐。
它背后之数学架构也甚清楚: 但此名优势也反过来限制之它之适用范围。
若对齐法门只能办理winner/loser,就甚难充分使用此类回馈。
此也为它与寻常二值化之区别。
只要每名样本有一名分数,就可进入操练。
上一篇:欧洲航空燃油本金压力攀升,汉莎将停飞数十架老旧飞鸟 下一篇:科曼:巴萨比赛之判罚值得讨论;若我为教练我更对卡马文加怒