谢晨(Steve)
00节目导览
这是一期"内部人士的产业单集"。张小珺邀请光轮智能创始人谢晨,试图用一集节目完整梳理数据这架驱动AI的三驾马车之一。节目的核心命题是:大语言模型的数据已遇到"撞墙"难题,而机器人的数据则处于"一片荒漠"之中。数据产业是如何运转的?仿真数据、数据金字塔将如何改变产业格局?
01寻觅:谢晨的AI数据之路
谢晨的个人经历本身就是一部"数据人"的缩影。从北大物理到哥大数量金融博士,他的职业路径横跨电商、自动驾驶、芯片和机器人:
花了很多时间发现自己不擅长什么……通过试错才知道。真正可以成为一个前提条件,来真正改变一个行业。
02综述:数据 = 教育
谢晨提出了一个极具洞察力的框架:"数据对于智能,有点类似于教育行业对于人的学习。" 这不是修辞,而是一种根本性的重新定位 — 数据不是冷冰冰的燃料,而是一个动态的教育系统。
| 阶段 | 数据特征 | 教育类比 | |
|---|---|---|---|
| ImageNet时代 | 静态数据集,图片+真值标注 | 一次性填鸭式教育 | |
| 自动驾驶/Scale AI时代 | 工厂化流程,大规模人力运营 | 量贩式义务教育 | |
| 大模型时代 | 后训练+评测,专家反馈驱动 | "传道受业解惑",因材施教 | |
| 具身智能时代 | 物理世界交互,仿真+真实结合 | 物理示范与经验传授 |
核心转变:从"标注正确答案"转向"出题+反馈",从"示范教学"转向"难题挑战激发自主寻找答案"。最好的老师不是给示范,而是出题诱导学生提升 — 这与RLHF的精神内核完全一致。
我们做的可能是一个教育公司。
03共生与势力:数据商的生态位
数据商(如光轮智能)与大模型厂商之间不是简单的供需关系,而是一种"共生迭代"关系。数据商提供"教育"与评测,模型厂商提供反馈,双方在循环中共同进化。
行业中存在两大势力的分化:
大模型/大脑团队
核心关注零样本泛化(Zero-shot),偏好本体无关数据(仿真+人类视频),使用标准化简单本体(机械臂+夹爪),数万张卡+成熟RL基础设施,追求通用家居/商超场景。
机器人本体公司
核心关注具体场景落地,偏好本体相关数据,使用复杂本体(轮式/足式+多传感器手),数千张卡、RL基础设施薄弱,聚焦酒店/工厂/农业等垂直场景。
一个关键的转折信号:
过去三个月,基本上所有大模型团队和世界模型团队都成为我们的客户……他们共同意识到的问题是:没有办法去规模化他们的评测了。
04历程:Scale AI的三次浪潮
谢晨以Scale AI为线索,梳理了数据产业从"手工作坊"到"工业化平台"的完整历程:
第一次浪潮:标注工厂(2016-2019)
Scale AI从YC孵化,发现自动驾驶对高精度标注的刚性需求。在肯尼亚、菲律宾培训万名标注员,与丰田、本田、Cruise、Waymo深度合作。本质是将"劳动密集型外包"升级为"平台+工具+交付体系"。
第二次浪潮:数据基础设施(2020-2022)
2019年开始与OpenAI合作,参与GPT-2及后续模型数据标注。推出数据调试SaaS Nucleus,签下美国国防部9100万美元大单。从"标注服务商"跃迁为"AI训练数据基础设施平台"。
第三次浪潮:生成式AI引擎(2022-至今)
从ChatGPT开发初期与OpenAI密切合作,推出Spellbook(Prompt调优)、Donovan(国防AI决策)。2025年Meta以约148亿美元收购Scale AI 49%股份,标志着数据基础设施的战略价值被彻底认可。