机器人数据的综述：新时代的石油

谢

谢晨（Steve）

光轮智能（启数光轮）创始人兼CEO / 前英伟达、Cruise、蔚来自动驾驶仿真负责人

北大物理系本科，哥伦比亚大学量化金融博士。2018年加入Cruise负责自动驾驶仿真，后任英伟达自动驾驶仿真负责人，2021年回国加入蔚来从0搭建自动驾驶仿真部门。2023年创立光轮智能，国际首创将生成式AI融入仿真，为自动驾驶和具身智能提供合成数据解决方案。

00节目导览

这是一期"内部人士的产业单集"。张小珺邀请光轮智能创始人谢晨，试图用一集节目完整梳理数据这架驱动AI的三驾马车之一。节目的核心命题是：大语言模型的数据已遇到"撞墙"难题，而机器人的数据则处于"一片荒漠"之中。数据产业是如何运转的？仿真数据、数据金字塔将如何改变产业格局？

01:07寻觅

20:09综述

41:39共生

48:30势力

66:56历程

74:45迹象

92:00对照

102:40金字塔

115:31定价

122:50Recipe

137:06版图

148:52终点

01寻觅：谢晨的AI数据之路

谢晨的个人经历本身就是一部"数据人"的缩影。从北大物理到哥大数量金融博士，他的职业路径横跨电商、自动驾驶、芯片和机器人：

早期

北大物理本科 → 哥大数量金融博士（全额奖学金）。读博期间创办宠物社交APP，因无法商业化而关闭。

2015-2018

VTS（独角兽）→ Jet.com（被沃尔玛收购）→ 负责动态定价AI算法。这段经历让他第一次接触到"用数据训练模型解决商业问题"。

2018-2021

加入Cruise（硅谷L4自动驾驶公司）负责自动驾驶仿真。2018年Alexandr Wang（Scale AI创始人）曾找上门推销产品，"那时他们刚起步不久"。后转任英伟达自动驾驶仿真负责人。

2021-2023

回国加入蔚来，从0到1搭建自动驾驶仿真部门。在英伟达时发现"Orin最大的客户不是Waymo和Cruise，而是蔚小理"，意识到自动驾驶的下一站在中国。

2023-至今

创立光轮智能，专注合成数据。Cruise倒闭而Scale AI崛起的故事让他确认："卖水人"比"淘金者"更持久。

花了很多时间发现自己不擅长什么……通过试错才知道。真正可以成为一个前提条件，来真正改变一个行业。

02综述：数据 = 教育

谢晨提出了一个极具洞察力的框架："数据对于智能，有点类似于教育行业对于人的学习。" 这不是修辞，而是一种根本性的重新定位 — 数据不是冷冰冰的燃料，而是一个动态的教育系统。

阶段	数据特征	教育类比
ImageNet时代	静态数据集，图片+真值标注	一次性填鸭式教育
自动驾驶/Scale AI时代	工厂化流程，大规模人力运营	量贩式义务教育
大模型时代	后训练+评测，专家反馈驱动	"传道受业解惑"，因材施教
具身智能时代		物理世界交互，仿真+真实结合	物理示范与经验传授

核心转变：从"标注正确答案"转向"出题+反馈"，从"示范教学"转向"难题挑战激发自主寻找答案"。最好的老师不是给示范，而是出题诱导学生提升 — 这与RLHF的精神内核完全一致。

我们做的可能是一个教育公司。

03共生与势力：数据商的生态位

数据商（如光轮智能）与大模型厂商之间不是简单的供需关系，而是一种"共生迭代"关系。数据商提供"教育"与评测，模型厂商提供反馈，双方在循环中共同进化。

行业中存在两大势力的分化：

大模型/大脑团队

核心关注零样本泛化（Zero-shot），偏好本体无关数据（仿真+人类视频），使用标准化简单本体（机械臂+夹爪），数万张卡+成熟RL基础设施，追求通用家居/商超场景。

机器人本体公司
核心关注具体场景落地，偏好本体相关数据，使用复杂本体（轮式/足式+多传感器手），数千张卡、RL基础设施薄弱，聚焦酒店/工厂/农业等垂直场景。

一个关键的转折信号：

过去三个月，基本上所有大模型团队和世界模型团队都成为我们的客户……他们共同意识到的问题是：没有办法去规模化他们的评测了。

04历程：Scale AI的三次浪潮

谢晨以Scale AI为线索，梳理了数据产业从"手工作坊"到"工业化平台"的完整历程：

🏗

第一次浪潮：标注工厂（2016-2019）

Scale AI从YC孵化，发现自动驾驶对高精度标注的刚性需求。在肯尼亚、菲律宾培训万名标注员，与丰田、本田、Cruise、Waymo深度合作。本质是将"劳动密集型外包"升级为"平台+工具+交付体系"。

💻

第二次浪潮：数据基础设施（2020-2022）

2019年开始与OpenAI合作，参与GPT-2及后续模型数据标注。推出数据调试SaaS Nucleus，签下美国国防部9100万美元大单。从"标注服务商"跃迁为"AI训练数据基础设施平台"。

⚡

第三次浪潮：生成式AI引擎（2022-至今）

从ChatGPT开发初期与OpenAI密切合作，推出Spellbook（Prompt调优）、Donovan（国防AI决策）。2025年Meta以约148亿美元收购Scale AI 49%股份，标志着数据基础设施的战略价值被彻底认可。

05迹象：Scaling Law 的信号

具身智能的Scaling Law（规模定律）是否成立？谢晨认为，迹象已经开始出现：

06对照：自动驾驶 vs 具身智能

维度	自动驾驶	具身智能/机器人
真实数据占比	70%+（特斯拉、理想等大量车队回传）	极少（全球部署机器人不到1万台）
仿真数据角色	辅助解决边角案例（<30%）	核心依赖 — 必须从仿真启动
数据飞轮	特斯拉模式可行（车卖出去数据自然回流）	特斯拉飞轮不成立 — 大脑交给xAI，身体自己玩
评价方式	影子模式（免费大规模评价）	必须通过仿真规模化评价
商业模式	车可卖，数据自然回流	必须先有合成数据，否则商业模式不成立
当前分数	~60分（已能上路）	~0.6分（连1分都不到）

07金字塔：数据的三层结构

谢晨借用了李飞飞学生朱玉可提出的"数据金字塔"概念，并进行了深化。这个金字塔描述了具身智能数据的来源层级：

仿真与世界模型的关系：不是替代，而是共生。世界模型需要更好的物理数据来提升，仿真数据需要世界模型来做更好的泛化。

08定价：什么数据最贵？

09Recipe：数据配方

"Recipe"即数据配方 — 不同类型数据在训练中的配比比例。这是具身智能领域最具争议的话题之一。

来源/公司	仿真数据	真实数据	立场
银河通用（王赫）	99%	1%	极端仿真派
36氪行业预测	70%	30%	仿真为主
千寻智能	<5%	95%+	极端真机派
英伟达GR00T	大量使用	少量	仿真验证有效

10版图：产业链分层

谢晨预测具身智能产业将彻底重构，不再是某一家公司垂直整合所有环节，而是形成"四方共生"的生态：

机器人数据的综述
新时代的石油

谢晨（Steve）

00节目导览

01寻觅：谢晨的AI数据之路

02综述：数据 = 教育

03共生与势力：数据商的生态位

大模型/大脑团队

机器人本体公司
核心关注具体场景落地，偏好本体相关数据，使用复杂本体（轮式/足式+多传感器手），数千张卡、RL基础设施薄弱，聚焦酒店/工厂/农业等垂直场景。

04历程：Scale AI的三次浪潮

第一次浪潮：标注工厂（2016-2019）

第二次浪潮：数据基础设施（2020-2022）

第三次浪潮：生成式AI引擎（2022-至今）

05迹象：Scaling Law 的信号

06对照：自动驾驶 vs 具身智能

07金字塔：数据的三层结构

08定价：什么数据最贵？

预训练数据：最便宜

后训练/评测数据：更贵

纠错数据：最贵

09Recipe：数据配方

10版图：产业链分层

大脑商

数据商

本体商

场景商
拥有落地场景（车企、医疗集团、农业公司）。可能自研硬件，也可能采购第三方方案。

11终点：终局思考

仿真是机器人的必备条件

参考来源

机器人数据的综述新时代的石油

谢晨（Steve）

00节目导览

01寻觅：谢晨的AI数据之路

02综述：数据 = 教育

03共生与势力：数据商的生态位

大模型/大脑团队

机器人本体公司 核心关注具体场景落地，偏好本体相关数据，使用复杂本体（轮式/足式+多传感器手），数千张卡、RL基础设施薄弱，聚焦酒店/工厂/农业等垂直场景。

04历程：Scale AI的三次浪潮

第一次浪潮：标注工厂（2016-2019）

第二次浪潮：数据基础设施（2020-2022）

第三次浪潮：生成式AI引擎（2022-至今）

05迹象：Scaling Law 的信号

06对照：自动驾驶 vs 具身智能

07金字塔：数据的三层结构

08定价：什么数据最贵？

预训练数据：最便宜

后训练/评测数据：更贵

纠错数据：最贵

09Recipe：数据配方

10版图：产业链分层

大脑商

数据商

本体商

场景商 拥有落地场景（车企、医疗集团、农业公司）。可能自研硬件，也可能采购第三方方案。

11终点：终局思考

仿真是机器人的必备条件

参考来源

机器人数据的综述
新时代的石油

机器人本体公司
核心关注具体场景落地，偏好本体相关数据，使用复杂本体（轮式/足式+多传感器手），数千张卡、RL基础设施薄弱，聚焦酒店/工厂/农业等垂直场景。

场景商
拥有落地场景（车企、医疗集团、农业公司）。可能自研硬件，也可能采购第三方方案。