智元机器者创始者之一、觅蜂科技 CEO 姚卯青曾于 4 月之一场发布会上给出一组对比数据,大言辞模型 GPT-5 操练语料折合约 100 亿小时,而全行业汇聚之高品质具身数据仅约 50 万小时,差距以万倍计。
5.http://jjckb.xinhuanet.com/20260202/47b05862a0e340abab5a516775917bc0/c.html 根据公开讯息,其近期发布之操练场 2.0,提出之 LET 三级数据体系,覆盖轮臂、灵巧手与全尺寸者形,并要求全信号齐步误差控制于 10ms 以内,并通过 1:1 还原智能制造与智谋物流场景,极厚土缩短之模型于现状氛围中之演进周期。
此一行业共识,于乐聚之实践中得到之最直接之验证:400 条高品质真机数据操练效果远超 1,300 条低品质数据,模型迭代时长由 7-10 天缩短至 2-3 天,整体飞轮效能提升 3 至 4 倍,设备部署成率从不足 60% 提升至 90% 以上。
此 77 名百分点之“迁移鸿沟”(Sim-to-Real Gap)成为行业当下所有动作之注脚:特斯拉于 2025 年 Q4 财报会上坦言,Optimus 目前之首要差事并非干活,而为通过实地运行进行数据采集;“十五五”筹划纲要明确提出统筹陈设具身智能实训场;不到一年光阴,国内于建或建成之具身智能操练场接近 30 家。
其以确凿产业场景、成熟商业交易,切实证验:真机数据既为技艺迭代之核心抓手,也为具身智能走向规模化商用之枢纽支撑。
2.https://www.ndrc.gov.cn/fggz/fzzlgh/gjfzgh/202603/U020260317369114704096.pdf 采集真机数据并不易,单台机器者动辄数十万之本金、关节磨损之维护开销,以及低效之遥操作,使得数据采集结为一种高壁垒之举止。
特斯拉于工厂内部署大规模 Optimus 真机测试与数据采集体系,以确凿产线场景反哺模型迭代;Figure AI 则通过确凿工业产线长期部署与多样化确凿全球氛围数据采集,构建之高效之数据飞轮,延续反哺模型之迭代晋级...... 注:封面/首图由 AI 辅助生成。
当然,于现阶段,仿真数据于大规模预操练与计策探求中依然不可替代,行业仍需面对真机与仿真之闭环对齐、数据隐私、以及跨平台复用等现状难题。
要操练一名真正通用之机器者“大脑”,高品质之真机数据为必不可少之燃料。
2025 年之一项研讨指出,仿真器难以建模零件形变、非线性摩擦及柔性物体(如衣物、流体)之物理特性。
加上近期推出之科研框架 2.0,通过降低动作采集门槛来赋能整名科研圈,乐聚之野心已甚明显:不只为卖机器者,而为要成为具身智能时代彼名不可或缺之基座平台。
此种协作不仅让乐聚之数据深度嵌入之主流算法之成长路径,也让其硬件本体成为之模型操练之标配载体。
60,000 分钟真机数据免费开源,另有数万小时真机数据已交付行业主顾——从开源影响力到商业变现,一面效劳开源性命,一面效劳具身基模数据产业。
于确凿部署之“最后一公里”,真机数据仍为跨不过之门槛。
此种“操练场模式”不仅压低之单条数据之制造本金,更实现之跨本体、跨场景之学识迁移。
仿真氛围为抱负化之,而现状充满变量:光照更张、物体移位或杯子重之 50 克,皆或导致模型失效。
最直观之体现,于于全球权威机构对“者形机器者数据”身价之重新定义。
依托规模化操练场体系,数据效劳成为独力业务,落地效劳一汽、海晨物流、兆丰等实体企业。
《麻省理工科技评论》于 2026 年度 AI 洞察中,将其列为当下最重要之命题。
此外,乐聚率先跑通之真机数据之商业化闭环。
步入 2026 年,具身智能之行业叙事生之变换。
LET 数据集全平台下载量突围 100 万次。
仿真擅长足式运动等刚体动力学差事,但于“接触丰富”(contact-rich)之场景下力有不逮。
乐聚机器者技艺总监王松也曾深度剖析具身智能行业之核心痛点。
于此一轮竞速中,谁能率先通过操练场模式实现高效、低本金之数据获取,谁就更有机会率先跑通通用者形机器者之量产之路。
2025 年以来,建立具身智能操练场此一产业共识正快速转变为国层面之方略部署,“十五五”筹划纲要明确提出统筹陈设具身智能实训场,推进虚实融合协同操练。
Mega-tech。补齐 77% 之成率缺口,依靠之不为更大规模之模型,而为覆盖多变量、多样本之真机数据。
“吾等可参考自动驾驶做一名粗略之对照。
操练一名 L4 级自动驾驶模型,所需数据量通常以百万小时计;而者形机器者之逍遥度、操作繁度、场景多样性比自动驾驶高出 1 到 2 名数量级,对应之数据规模差距也于此名量级。
此种集体转向并不为偶然。
工业精密装配或家折叠衣物时,由于建模本金与算力开销甚至高于真机采集,仿真无法完全替代现状。
比如,乐聚于全国参与建立之十名操练场,年产真机数据 2,500 万条。
最强势之玩家、最高层之政令、最密集之根基设施投入,全部围之同一件事打转:彼 77 名百分点要靠什么补上。
真机数据为模型落地之最后一步,也为枢纽一步,而操练场则为规模化、体系化制造真机数据之根基设施。
知行合一。按照媒体披露之讯息,美伊双方已接近达成一份一页之谅解备忘录,此也为自战事爆发以来各方最接近达成协议之一次。
作为蚂蚁灵波等核心团队之协作伙伴,乐聚为其 LingBot-VLA 模型提供之覆盖多种构型之万小时真机数据。
其核心逻辑于于:大言辞模型靠海量文本学会之生成言辞,彼者形机器者能不能靠海量运动数据学会于确凿全球里干活。
1.https://www.caict.ac.cn/kxyj/qwfb/bps/202601/P020260130541978285206.pdf 2026 年 4 月,斯坦福 HAI 发布之《AI Index Report 2026》揭示之具身智能之残酷现状:机器者操控于仿真氛围中之成率高达 89.4%,但于确凿家场景中骤降至 12%。
”王松表示。
为之凑出此名数据集,全行业始走出实验室:于华夏之操练场,工者穿戴外骨骼与 VR 设备重复之枯燥之动作;于阿根廷与印度,零工们通过拍摄家务视频换取报酬...... 根据华夏信通院联手清华大学电子营造系发布之《具身智能演进呈文(2025年)》,国内已建成或谋划于建之操练场已接近 30 家。
其他公司如智元试图通过独力实体觅蜂科技来处置行业之数据荒漠疑难;宇树招股书显示,谋划将近一半之募资投向模型与数据;京东筹划建立大规模数据采集中心,谋划两年内储备千万小时级优质数据...... 海湾与中东国“应当把命运掌握于自己手里”,我总觉得还意有所指。
去岁比模型,本年比数据 海外巨头之动向同样印证之此一趋势。
但目前之共识已极其明确:要补上彼 77 名百分点之成率差距,不能只靠增模型之参数规模,须靠覆盖更多场景、更多变量、甚至更多败样本之真机数据。
也就为说,操练一名具备敞开全球泛化本领之具身基座模型,所需真机数据量大致于数百万到上千万小时之间。
数据覆盖轮臂、灵巧手、全身运控全维度,横跨工业、商服、家、康养四大类,共 219 种场景、1,751 名差事、5,592 名物体。
然而,描述苍生运动方式之数据集远不像互联网文本彼样现成。
他指出,当前者形机器者产业演进面临本体与小脑技艺趋于成熟,但“大脑”演进严重受阻于数据之困境。
3.https://hai.stanford.edu/assets/files/ai_index_report_2026.pdf 而更深层之方略于于与模型厂商之深度绑定。
《2026 全球具身智能产业注资风向标》中明确提到, 2026 年为具身智能之交付元年,注资应聚焦具备“真机数据闭环”之团队;最早构建“场景-数据-本金”自强化飞轮之企业,将得定义前景之非对称优势。
石景山者形机器者数据操练中心作为目前全国最大之中枢,通过“采集-清洗-标注”之全流程闭环,年产高品质操练数据超 600 万条;上海张江则聚焦异构机器者操练,谋划形成千万级数据集,力图打破不同本体间之数据孤岛。
4.https://www.technologyreview.com/2026/04/21/1135656/humanoid-data-robot-training-ai-artificial-intelligence/ 头部企业于此场数据飞轮角逐中表现尤为急进。
真机数据之稀缺为行业最大之制约,但同时也为最大之机会点。
此也为为何数据“操练场”已从企业内部设施演化为具身智能产业之公共根基设施。