张小珺Jùn|商业访谈录 · 第134期

机器人数据的综述
新时代的石油

和谢晨聊数据的产业综述:历史、版图、数据金字塔、定价与Recipe — 近三小时播客的详尽笔记

2026.03.30 ~158 min 光轮智能 CEO 谢晨
SCROLL

谢晨(Steve)

光轮智能(启数光轮)创始人兼CEO / 前英伟达、Cruise、蔚来自动驾驶仿真负责人
北大物理系本科,哥伦比亚大学量化金融博士。2018年加入Cruise负责自动驾驶仿真,后任英伟达自动驾驶仿真负责人,2021年回国加入蔚来从0搭建自动驾驶仿真部门。2023年创立光轮智能,国际首创将生成式AI融入仿真,为自动驾驶和具身智能提供合成数据解决方案。

00节目导览

这是一期"内部人士的产业单集"。张小珺邀请光轮智能创始人谢晨,试图用一集节目完整梳理数据这架驱动AI的三驾马车之一。节目的核心命题是:大语言模型的数据已遇到"撞墙"难题,而机器人的数据则处于"一片荒漠"之中。数据产业是如何运转的?仿真数据、数据金字塔将如何改变产业格局?

01:07寻觅
20:09综述
41:39共生
48:30势力
66:56历程
74:45迹象
92:00对照
102:40金字塔
115:31定价
122:50Recipe
137:06版图
148:52终点

01寻觅:谢晨的AI数据之路

谢晨的个人经历本身就是一部"数据人"的缩影。从北大物理到哥大数量金融博士,他的职业路径横跨电商、自动驾驶、芯片和机器人:

早期
北大物理本科 → 哥大数量金融博士(全额奖学金)。读博期间创办宠物社交APP,因无法商业化而关闭。
2015-2018
VTS(独角兽)→ Jet.com(被沃尔玛收购)→ 负责动态定价AI算法。这段经历让他第一次接触到"用数据训练模型解决商业问题"。
2018-2021
加入Cruise(硅谷L4自动驾驶公司)负责自动驾驶仿真。2018年Alexandr Wang(Scale AI创始人)曾找上门推销产品,"那时他们刚起步不久"。后转任英伟达自动驾驶仿真负责人。
2021-2023
回国加入蔚来,从0到1搭建自动驾驶仿真部门。在英伟达时发现"Orin最大的客户不是Waymo和Cruise,而是蔚小理",意识到自动驾驶的下一站在中国。
2023-至今
创立光轮智能,专注合成数据。Cruise倒闭而Scale AI崛起的故事让他确认:"卖水人"比"淘金者"更持久
花了很多时间发现自己不擅长什么……通过试错才知道。真正可以成为一个前提条件,来真正改变一个行业。

02综述:数据 = 教育

谢晨提出了一个极具洞察力的框架:"数据对于智能,有点类似于教育行业对于人的学习。" 这不是修辞,而是一种根本性的重新定位 — 数据不是冷冰冰的燃料,而是一个动态的教育系统

阶段 数据特征 教育类比
ImageNet时代静态数据集,图片+真值标注一次性填鸭式教育
自动驾驶/Scale AI时代工厂化流程,大规模人力运营量贩式义务教育
大模型时代后训练+评测,专家反馈驱动"传道受业解惑",因材施教
具身智能时代物理世界交互,仿真+真实结合物理示范与经验传授

核心转变:从"标注正确答案"转向"出题+反馈",从"示范教学"转向"难题挑战激发自主寻找答案"。最好的老师不是给示范,而是出题诱导学生提升 — 这与RLHF的精神内核完全一致。

我们做的可能是一个教育公司。

03共生与势力:数据商的生态位

数据商(如光轮智能)与大模型厂商之间不是简单的供需关系,而是一种"共生迭代"关系。数据商提供"教育"与评测,模型厂商提供反馈,双方在循环中共同进化。

行业中存在两大势力的分化:

大模型/大脑团队

核心关注零样本泛化(Zero-shot),偏好本体无关数据(仿真+人类视频),使用标准化简单本体(机械臂+夹爪),数万张卡+成熟RL基础设施,追求通用家居/商超场景。

机器人本体公司

核心关注具体场景落地,偏好本体相关数据,使用复杂本体(轮式/足式+多传感器手),数千张卡、RL基础设施薄弱,聚焦酒店/工厂/农业等垂直场景。

一个关键的转折信号:

过去三个月,基本上所有大模型团队和世界模型团队都成为我们的客户……他们共同意识到的问题是:没有办法去规模化他们的评测了。

04历程:Scale AI的三次浪潮

谢晨以Scale AI为线索,梳理了数据产业从"手工作坊"到"工业化平台"的完整历程:

🏗

第一次浪潮:标注工厂(2016-2019)

Scale AI从YC孵化,发现自动驾驶对高精度标注的刚性需求。在肯尼亚、菲律宾培训万名标注员,与丰田、本田、Cruise、Waymo深度合作。本质是将"劳动密集型外包"升级为"平台+工具+交付体系"

💻

第二次浪潮:数据基础设施(2020-2022)

2019年开始与OpenAI合作,参与GPT-2及后续模型数据标注。推出数据调试SaaS Nucleus,签下美国国防部9100万美元大单。从"标注服务商"跃迁为"AI训练数据基础设施平台"

第三次浪潮:生成式AI引擎(2022-至今)

从ChatGPT开发初期与OpenAI密切合作,推出Spellbook(Prompt调优)、Donovan(国防AI决策)。2025年Meta以约148亿美元收购Scale AI 49%股份,标志着数据基础设施的战略价值被彻底认可。

05迹象:Scaling Law 的信号

具身智能的Scaling Law(规模定律)是否成立?谢晨认为,迹象已经开始出现:

但谢晨也指出,机器人数据与自动驾驶有一个根本区别:

自动驾驶本质上是评价免费的……影子模式……当学生和老师的输出有差异时,很可能是学生做错了。但对于具身来讲,现在并不具备这样一个大规模评价的能力……唯一可以的就是基于仿真去规模化评价。

06对照:自动驾驶 vs 具身智能

维度 自动驾驶 具身智能/机器人
真实数据占比70%+(特斯拉、理想等大量车队回传)极少(全球部署机器人不到1万台)
仿真数据角色辅助解决边角案例(<30%)核心依赖 — 必须从仿真启动
数据飞轮特斯拉模式可行(车卖出去数据自然回流)特斯拉飞轮不成立 — 大脑交给xAI,身体自己玩
评价方式影子模式(免费大规模评价)必须通过仿真规模化评价
商业模式车可卖,数据自然回流必须先有合成数据,否则商业模式不成立
当前分数~60分(已能上路)~0.6分(连1分都不到)

谢晨特别强调:

100万台部署机器人提供数据只是60分起点,目前全球甚至不到1万台,可能连0.6分都不到。

07金字塔:数据的三层结构

谢晨借用了李飞飞学生朱玉可提出的"数据金字塔"概念,并进行了深化。这个金字塔描述了具身智能数据的来源层级:

顶层:真实本体数据
真机遥操作采集
最准确、最好用、最难规模化
中层:仿真数据
物理准确的虚拟环境中可复现、可干预的行动
规模化能力强,Sim2Real差距在缩小
底层:互联网/人类数据
互联网视频 + 人类第一视角视频
本体无关、成本最低、数量最庞大

但谢晨提出了一个重要修正:

数据金字塔给人的印象是相对独立的三层……但我越来越认为它是一个以仿真为中心的数据闭环

仿真的严格定义包含三个核心要素:

  1. 物理准确:不仅是几何像,摩擦力、碰撞响应等物理参数也要对齐
  2. 可复现:跑100遍有95-99%的一致性
  3. 可干预:改变行动能看到结果变化,形成因果闭环

仿真与世界模型的关系:不是替代,而是共生。世界模型需要更好的物理数据来提升,仿真数据需要世界模型来做更好的泛化。

08定价:什么数据最贵?

数据定价是一个反直觉的话题。谢晨揭示了一个关键洞察:

最有效的数据是先失败再成功的数据……比如放蘑菇片没抓牢掉桌上,捡起来再放回去。
💰

预训练数据:最便宜

应多家平摊成本,属于"通识教育"层面的数据,可复用性强。

📈

后训练/评测数据:更贵

针对性更强,需要高阶专家参与,类似"名师一对一辅导"。

🌟

纠错数据:最贵

"失败-纠正-成功"的完整轨迹比完美演示更有价值。光轮智能曾有客户以1.5倍价格收购"不那么成功"的案例数据。

为什么纠错数据更值钱?

09Recipe:数据配方

"Recipe"即数据配方 — 不同类型数据在训练中的配比比例。这是具身智能领域最具争议的话题之一。

来源/公司 仿真数据 真实数据 立场
银河通用(王赫)99%1%极端仿真派
36氪行业预测70%30%仿真为主
千寻智能<5%95%+极端真机派
英伟达GR00T大量使用少量仿真验证有效

谢晨的核心立场:

推动具身智能发展,必须首先依赖大量合成数据,其次依赖相对少量真实数据,否则商业模式不可能成功。

中国"真机派"现象的分析:

本质上还是屁股决定脑袋……他们需要相信真机数据才能卖本体……很多真机派其实在用'现实世界的仿真'——假香蕉、假苹果。

10版图:产业链分层

谢晨预测具身智能产业将彻底重构,不再是某一家公司垂直整合所有环节,而是形成"四方共生"的生态:

🧠

大脑商

提供具身智能基座模型(π、Skild、英伟达GEAR、银河通用)。基于本体无关数据冲刺Scaling Law。

📚

数据商

提供合成数据、仿真平台、数据服务与评测体系(光轮智能、Genesis)。与客户形成共生迭代关系。

🤖

本体商

专注硬件制造(宇树、智元、Figure、特斯拉Optimus)。基于大脑做微调部署,不跟"大脑"公司竞争。

🏢

场景商

拥有落地场景(车企、医疗集团、农业公司)。可能自研硬件,也可能采购第三方方案。

谢晨对几家头部公司的判断:

11终点:终局思考

仿真是机器人的必备条件

仿真对于机器人是一个必备条件,没有仿真这件事肯定做不成。

谢晨对数据问题长期性的判断:

智能越强,其实对于知识的渴求程度会越高……只不过从向别人学习变成与自己对标。

光轮智能的定位演进:

关于世界模型仿真的终局关系:

世界模型客户……他们需要更好的物理数据来帮助提升……仿真会帮助他们;世界模型又可以帮助仿真数据做更好的泛化。

最后用谢晨自己的一句话作为这期笔记的结尾:

整体上讲就跟马斯克说的,咱们人可能就在一个仿真里头。

参考来源

134. 【数据的综述】和谢晨聊 — 小宇宙FM Apple Podcast 节目页面 PodcastTranscript.ai 节目摘要 光轮智能谢晨:具身智能爆发前,「数据」先行一步 50人论坛创新创业青年代表谢晨专访 知乎:张小珺对光轮智能CEO谢晨的访谈笔记 109. 机器人遭遇数据荒?与谢晨聊 — 前期节目