每类范式上半部分展示模型架构,下半部分给出其如何实现视觉编码、学识修习与可控模拟之历程。
不执之于生成完整视频,而为直接预测前景之 embedding。
视觉品质(Visual Quality):生成之画面或视频为否清晰、流畅、逼真。
学识修习 (Knowledge Learning): 模型需从视觉中到底学到之什么。
团队首先给出之 VWM 简洁且明确之定义:视觉全球模型能够从视觉数据中修习全球学识,并基于交互机缘生成前景全球状态。
子范式包括经典之潜方位扩散全球模型(latent diffusion)与当前之主流思路自回归扩散全球模型(Autoregressive Diffusion)。
从 “基于语义关联得出断语” 到 “基于全球常识模拟前景”,此不仅为全球模型研讨之一次范式推进,也或为 AI 走向更强预测、交互与决策本领之枢纽一步。
子范式包括经典之状态方位全球模型(State Space Modeling)与具有组合泛化本领之基于对象之全球模型(Object-centric Modeling)。
若说前面之章节回答之为视觉全球模型为如何设计之,彼么评测部分回答之就为另一名更枢纽之疑难:什么样之视觉全球模型才算得上好。
2. 扩散生成(Diffusion-based Generation) 图 8:三类估量指标总览。
例如,能否帮机器者提升抓取成率。
团队于综述中指出之三名至关重要之突围口:3R 路线图(Re-grounding, Re-evaluation, Re-scaling)。
4. 状态转移(State Transition) 裁判模型与实战估量: 操练专门之裁判模型(Judge Models)来估量生成结局之物理法则。
此揭示之一名枢纽疑难:言辞只为对全球之玄虚描述,它可表达结局,却无法刻画历程。
图 5:视觉自回归视觉全球模型代表法门总览。
1. 序列生成(Sequential Generation) 图 2:视觉全球模型研讨技艺路线。
依据上述一统框架,现有法门可被总括成四大代表性范式,包含七种子范式。
此也为为什么越来越多研讨者如 Yann LeCun,Fei-Fei Li 等始重新思考:若全球模型为通向通用智能之枢纽,彼么它之起点不应为言辞,而应为视觉。
因此,新之架构设计须引入更强之总括偏置与约束机制:一方面需强化几何感知本领(Geometry-aware Modeling)。
4. 估量指标与基准:视觉全球模型怎么评。
除之重力、接触、运动等根基物理法则,还存柔性材料形变、繁摩擦、流体运动等更高阶之物理历程;与此同时,现状氛围中之全球演化还常常受到社规范、举止约定与苍生意图之影响(例如:救护车闯红灯)。
推演时缩放(Inference-time Scaling): 前景之视觉全球模型于生成一段前景演化之前,不应为一次性盲目吐出画面,而为应于内部进行思考,提出多种或之结局、查验为否违背物理约束、于内心进行试错与修正,然后再给出最合理之推演结局。
例如,预测之运动轨迹为否符合运动学。
大言辞模型构建之学识,本原上为对苍生文本阅历之概率小结;而确凿全球之运转,遵循之为连续之物理法则与因果链条。
让模型不仅生成 2D 像素,更能于底层维持 3D 方位之一致性;另一方面需显式地建模物理法则与因果先验。
如何测试此些本领呢。
可控模拟 (Controllable Simulation): 基于学到之学识,模型于交互机缘(如机器者动作、文本指令)之引导下,对前景之潜于状态进行推演。
此项工提出之一次枢纽之概念转变:视觉不应仅仅被视为一种输入模态,而应成为塑造全球模型表征方式、修习机制以及估量体系之核心驱动力。
图 9:根基全球建模数据集与基准总览。
相比于单纯汇总已有工,此篇综述更重要之地方于于提出之一次枢纽之视角转换:视觉不应仅仅被视为全球模型之输入模态,而应成为定义模型如何表征全球、修习法则与估量本领之核心出发点。
也正因如此,当前迫切需一篇真正以视觉为中心、能够于一统框架下重新机构此一领域之体系综述。
架构晋级: 纯神经网络于面对分布外数据时极其脆弱。
吾等将其总括为三名递进之层次:时空连贯性(Spatio-temporal Coherence)、物理动力学(Physical Dynamics)以及因果机制(Causal Mechanisms)。
于此一 “以视觉为中心” 之视角下,研讨团队不仅首次体系性定义之视觉全球模型,还构建之一名贯通 “表征 - 修习 - 模拟” 之一统剖析框架,于同一框架下重组四大技艺路线、厘清评测体系,并进一步提出面向下一代全球模型之枢纽研讨方位。
研讨方位为视觉全球模型,遵循物理与因果法则之全球模型等。
每名法门剖析其视觉编码器、所修习之全球学识、交互输入与模拟输出类型。
视觉编码 (Vision Encoding): 如何将各类原始视觉信号(图像、视频、点云、光流讯息等)转变为利于建模全球变化之表征。
相比于单纯汇总已有工,此篇综述更重要之地方于于提出之一次枢纽之视角转换:视觉不应仅仅被视为全球模型之输入模态,而应成为定义模型如何表征全球、修习法则与估量本领之核心出发点。
图 4:视觉全球模型法门架构图。
图 1:言辞只能对事件结局进行玄虚概括,而视觉才能呈现全球变化之连续历程。
太极。AI 真之体谅全球吗。
相比之下,视觉直接记载之全球之演化 —— 物体之架构、运动以及背后之因果关系,皆体今视觉信号中。
调研之最新进展截止至 2026 年 4 月 1 日。
反事实推演测试: 真正之懂因果,意味之能回答 What-if 疑难。
此些路线普遍始依赖视觉信号,但于多数范式中,视觉仍更多被视为一种观测输入:视频生成法门更关注前景实质之视觉逼真度与时空一致性,表征预测法门强调于潜于方位中捕捉全球演化之预测架构,而状态转移与具身智能相关法门则更重视基于紧凑状态进行长时程推演与决策支。
针对特定领域之全球建模则关注模型于实在应用场景中之实际表现: 北京交通大学计算机学院教授 / 博导,国高层次青年贤才,曾任字节跳动美国研讨院创始成员与技艺负责者。
当一名杯子从桌面掉落,大言辞模型可告诉你 “它会碎”,却无法推演此名历程:它如何下落。
图 7:视觉全球模型估量体系概览。
实在而言,时空连贯性要求物体于方位与光阴上之延续性,其位置与形态变化保连贯;物理动力学为物体于重力、接触、运动等物理约束下之变化法则,保证前景演化之物理合理性;而因果机制则表示动作、事件与结局之间之因果关系,使模型能够体谅 “做什么会导致什么”。
包含三类估量指标与两组数据集与基准剖析。
通用全球预测与模拟(General World Prediction and Simulation),此部分更强调长时程预测、可控生成与一般性之全球体谅本领;物理与因果基准(Physics and Causality Benchmark),关注之不为画面为否逼真,而为模型为否真正遵守物理约束、能否区分合理与不合理事件,以及为否具备必之反事实与因果裁决本领。
比如,给模型同样之 “种下一粒种子” 之初始画面,机缘 A 为干旱,机缘 B 为浇水,模型须能推演出截然不同之生长结局。
模型须学会体谅此些逾越纯粹物理之社因果关系。
上半部分梳理主流模型架构,下半部分总括不同领域中之数据集与评测基准。
欢呼雀跃。图 3:视觉全球模型一统框架。
进一步地把 VWM 塞进机器者之大脑里去执行差事。
2. 重构估量体系(Re-evaluation):用实战与反事实检验真伪。
接下来为用什么评。
能否让自动驾驶车马安康避障。
该类范式于潜方位 rollout 高效,递归状态能够延续保留史册讯息,为早期全球模型之主流思路。
若于模拟筹划中机械臂抓取败之,彼此就为模型物理体谅存缺陷之最铁证。
图 10:针对特定领域之全球建模数据集与基准总览。
5. 下一代全球模型,何去何从。
1. 为什么今需一篇视觉全球模型综述。
研讨方位为多模态智能、全球模型、高效深度修习等。
得国奖学金两次,发表 CCF-A 类论文一篇,曾参与 VideoWorld 2 课题。
3D 方位架构为否会凭空坍塌。
多视角下之一致性如何。
1. 夯实学识根基(Re-grounding):走出简之物理模拟与画面生成,去面对确凿全球之繁性。
但其短处为可解释性相待较弱。
代表。根基全球建模旨于考察模型对通用物理全球法则之掌握程度,不局限于特定差事: 全球模型已成为当前 AI 研讨中最受关注之话题之一,该方位之演进跨视频生成、表征修习、具身智能、自动驾驶等多名研讨社区。
具身智能与机器者(Embodied AI and Robotics):关注模型为否能够支机器者于确凿或仿真氛围中成操作差事;自动驾驶(Autonomous Driving):需模型具备强感知本领,也要求它能够于交互与控制机缘下稳固推演交通场景;交互氛围与游戏(Interactive Environments and Gaming):测试要点为模型能否作为 “神经渲染引擎”,于玩家输入各种离散控制信号时,实时回馈出正确、一致之游戏画面。
研讨团队不再把此些路线割裂开,而为放到同一套框架下进行较量。
3. 当前视觉全球模型,主要分成哪几条技艺路线。
也正因如此,当前迫切需一篇真正以视觉为中心、能够于一统框架下重新机构此一领域之体系综述。
碎片如何飞散。
液体如何溅开。
团队体系梳理之视觉全球模型常用之数据集与基准,并把它们分成两大组:根基全球建模(Foundational World Modeling)与针对特定领域之全球建模(Domain-specific World Modeling)。
用什么评。
差事表现(Task Performance):模型能否支下游差事之成。
从视觉编码、学识修习到可控模拟,体系刻画 VWM 如何从观测中修习全球法则,并于交互机缘下推演前景,实现闭环模拟。
预操练缩放(Pretraining Scaling): 于预操练阶段,吾等需更高效之时空 Encoder 与一统之建模接口,用海量之、包含繁因果之交互数据,操练出跨领域之通用视觉全球模型。
物理合理性(Physical Plausibility):模型为否遵循实情物理法则。
3. 重塑 Scaling Law(Re-scaling):迈向更通用之全球模型。
团队给出之解答甚明确:仅仅生成出清晰、逼真之画面还远远不够。
于视觉品质上更强,也更适合生成连贯、逼真之前景片段,但代价为推演开销更大。
完整文献整理与总括、详细架构对比与技艺路线图,欢迎前往吾等之论文与课题主页详细阅读。
该范式之典型代表为 JEPA 系列。
此名框架之重要性于于,它第一次较量体系地回答之:一名视觉全球模型到底应学什么,靠什么学,又该如何被控制与估量。
此样之好处为能把要点放于 “学法则” 而不为 “画细节” 上,更适合筹划、推演与效能优先之场景。
图 11:下一代全球模型核心应战与前景方位。
北京交通大学计算机学院博士生。
首先为怎么评。
并将 VWM 之研讨一统为一名框架内之三名核心组件: 论文标题: From Seeing to Knowing the World: A Survey of Vision World Models课题主页:https://aiworldlab.github.io/survey/论文链接:https://aiworldlab.github.io/survey/preprint.pdf代码 / 源泉整理:https://github.com/AIWorldLab/Awesome-Vision-World-Model 从 “生成逼真画面” 走向 “支撑 AGI 之根基设施”,下一代全球模型路于何方。
确凿全球并不为符号组成之,而为连续变化之物理体系。
例如,可引入神经符号混合架构(Neuro-symbolic),将严格之物理引擎或因果逻辑融入神经网络,用显式之章法约束隐式之生成。
此使得视觉成为 AI 修习全球变化最直接、最完整之讯息来源。
拓宽学识边界: 确凿全球并不只由简之牛顿运动与刚体碰撞构成。
苍生体谅全球,不只为 “说出断语”,而为 “看见变化”。
图 6:扩散生成视觉全球模型代表法门总览。
基于此一裁决,团队将现有估量指标一统整理为三大类: 通常于连续潜方位中通过迭代去噪生成前景。
将视觉输入压缩为紧凑之隐状态,通过递归状态转移建模全球随光阴之演化。
虽此些路线皆于尝试回答 “AI 如何从视觉中建立对全球变化之内部模型” 此一核心疑难,但它们长期沿之各自之范式独力演进,存定义不一统、分类彼此割裂、评测标准难以对齐等疑难。
一名可靠之视觉全球模型,至少要同时知足三层要求:看起来确凿、演化历程合理、并且能够真正支差事决策。
子范式包括基于视觉自回归之全球模型(visual autoregressive model),以及与大言辞模型对齐之多模态自回归全球模型(MLLM-guided multimodal autoregressive model)。
视觉全球模型之使命,正为打破符号之局限,直击物理现状之演化法则。
它之优势为可扩展性强、适合长上下文,缺陷为长时预测易现误差累积与漂移,对精细几何、物理交互之模拟效果有尽。
通常会把图像或视频转成 token 序列,然后像言辞模型一样一步一步预测前景。
视觉全球模型之宗旨,正为让 AI 通过视觉修习全球之运行法则,并据此推演前景。
2. 视觉全球模型一统框架 3. 表征预测(Embedding Prediction) 尽管目前之 VWM 已能生成令者惊艳之视觉画面,但只要遇到繁之物理交互、罕见之边缘场景或为需严谨因果推演之差事,它们往往产生违背常理之幻觉。