要闻

具身智能“卷”数据：行业共识质量为先多样性和流通性仍有不足

2026-06-17 01:21:42

6月16日，星海图全球开发者大会（Galaxea WDC 2026）上，“数据”成具身智能核心议题。当前，国内具身数据约百万小时，远低于大语言模型，且面临质量、成本、流通及安全挑战。业内称，数据多样性、流通性不足致智能未涌现。数据采集成本高昂，高质量数据是关键。具身智能发展分两阶段，后期数据增长或将指数级扩张，但数据质量比规模更为关键。

每经记者｜可杨每经编辑｜黄博文

6月16日，在北京亦庄举行的以“Build with Galaxea”为主题的星海图全球开发者大会（Galaxea WDC 2026）上，“数据”成为关键词之一。

围绕具身智能数据问题，多位行业人士分享了大量一线数据和判断：当前国内可用于训练的具身数据量级约为百万小时，与大语言模型动辄几千万小时的视频数据、几十万亿Token（词元）的文本数据相比仍有明显差距。

星海图CEO（首席执行官）高继扬在接受包括《每日经济新闻》记者在内的媒体记者采访时表示，与大语言模型主要依赖互联网公开数据不同，具身智能的数据几乎都来自现实世界的采集，具有强烈的私有化属性。

这意味着，行业面临的不仅是数据量不足的问题，更包括数据质量、采集成本、流通效率以及安全合规等一系列挑战。

“百万小时”之后，行业缺的仍是高质量数据

在采访中，高继扬首先回应了业界关于VLA（视觉－语言－动作模型）与世界模型路线之争的问题。他认为，两者并非对立，而是同源共生。无论训练哪一种模型，本质上都需要将多模态数据转化为Token，再进行编码和学习。

他进一步将具身智能的数据需求拆解为四个维度：动作、对象、场景和本体。所谓“采数据”，本质上是要尽可能把这四个维度的不同类型数据全部采集到。其中，Human-Centric Data（以人为中心的数据）和Robot-Centric Data（以机器人为中心的数据）各有作用。前者能够以较低成本快速覆盖大量场景和不同人体形态，后者则更贴近最终部署机器人的真实运动特性。

对于使用的数据类型，高继扬表示，现在的预训练基本全部使用真实数据，几乎不用仿真数据。在公司达到100万小时数据规模之前，暂时看不到大规模采用仿真数据的必要性，因为真实数据更能有效覆盖上述四个维度。

海天瑞声CEO李科在6月16日上午的圆桌对话中表示，在当前具身智能领域中，虽然已经出现大量训练场和数据采集中心，但真正可用于训练的数据规模仍然有限。他估算，目前国内可用于具身模型训练的数据大约在百万小时量级，而学术界公开数据集大多只有数百小时，少数达到万小时规模。

李科认为，目前之所以智能没有涌现，问题不仅在于数据总量不足，还在于数据多样性和流通性不够。不同训练场基于不同机器人本体采集数据，形成了明显的数据孤岛。

对此，鲸跃动力CEO李广宇则进一步指出，高质量的数据也是重要因素。“我们希望，今年如果整个行业积累千万小时的数据，其中真正有价值的可以达到100万小时，从量变到质变。”

在具身智能领域，数据采集往往被视为一项昂贵工程。

高继扬以星海图的实践为例，给出了较为具体的成本测算。Human-Centric Data的采集成本约每小时50元至100元，Robot-Centric Data约每小时250元。综合来看，行业平均数据成本约每小时100元至150元。按照这一标准，采集100万小时数据的成本在1亿元至2亿元之间。

高继扬强调，相比大模型训练动辄数亿美元的算力投入，这笔钱“必须得花，而且非常划算”。他提出，衡量数据投入不能只看数据单项成本，而应该关注智能总成本。“智能总成本分三部分：数据成本、算力成本以及研发团队工程师成本。我们（指星海图）的实践至少是1∶10，即1块钱的数据至少花10块钱去做训练才能把它训明白。”

在高继扬看来，真正昂贵的不是数据本身，而是低质量数据带来的训练浪费。“如果输入的是不那么有效的数据，产生的模型也不会有太大价值，在数据上量之前一定要先把数据质量解决，而什么是最高质量的数据？真实数据是最高质量的。”

除了成本，数据壁垒也成为行业关注焦点，高继扬直言，未来具身智能模型的竞争很大程度上取决于数据质量。他认为，数据差异会逐层传导：从数据质量差异，到模型能力差异，再到应用效果差异，最终体现为商业价值差异。

在商业模式上，高继扬将具身智能的发展分为两个阶段：当前阶段仍以整机销售为主，真正面向生产力的方案订阅模式阶段尚未成熟。他认为，现阶段行业尚未有企业真正实现大规模生产力场景落地，因此更大的市场空间仍在未来。

从数据到智能，行业正在寻找下一次跃迁

具身智能正处于从数据冷启动向智能涌现过渡的关键阶段。

清科灵境创始人杨子江将具身数据比作人工智能时代的石油。在他看来，真正的挑战不仅是采集数据，更是如何完成数据的提取、加工、提纯和流通。“具身智能如何获得三维的多模态的数据，怎么样才能高效地把其提取并加工成有用的数据，这也是需要不断积累的过程。”

对于未来的数据来源，业内也出现了一些新的探索方向。

李广宇认为，消费电子设备可能成为重要的数据入口，例如手机、智能眼镜等终端具备摄像头和端侧算力，可以在用户日常生活中持续采集具身数据。与此同时，随着机器人逐步进入真实生产和生活场景，其运行过程本身也将不断产生新的训练数据。“大家认为今年是具身应用元年，预期未来有更多的机器人能够实际铺到真实的生产生活当中，这些机器人产生的数据也是很有价值的。”

高继扬在受访时表示，行业真正的Scaling（规模化扩展）尚未开始。在他看来，具身智能的数据增长不会是线性的，而应是指数级扩张。

此外，高继扬认为，目前具身基础模型的成长速度已经快于婴幼儿学习技能的成长速度。因此，他并不认为行业进展缓慢。但高继扬同时强调，数据量的上升并不直接带来模型执行速度的提升，执行速度更多取决于后训练而非预训练。

他介绍，预训练解决的是泛化性问题，即面对新场景、新任务能否在不增加新数据的前提下完成；后训练则是针对特定场景的补充训练，类似于劳动者上岗前的专项培训，只有经过培训后，执行速度才会真正提升。

如果将当前具身智能水平类比为婴儿，那么发展到相当于七八岁孩子的智能水平，大致需要多长时间、多大规模的数据？

面对这一问题，李科判断需要3至5年时间，对应的有效数据量级在千万小时左右。在他看来，关键在于有效数据并非简单的数据总量。同时，与本体直接相关的特定数据，如机器人手腕自由度带来的差异化操作数据等，可能比泛化数据更具价值。

星海图CFO（首席财务官）罗天奇则表示，星海图内部判断的中性预测周期为3年左右，如果算法层面出现重大突破，这一进程有可能进一步提速。他同时提到，在数据成本中，算力仍是最大开销，数据本身相对是“小头”，但数据质量比规模更为关键。数据基础设施能力以及标注环节的降本增效，将是行业接下来需要持续投入的重点方向。

封面图片来源：每经媒资库

如需转载请与《每日经济新闻》报社联系。
未经《每日经济新闻》报社授权，严禁转载或镜像，违者必究。

读者热线：4008890008

特别提醒：如果我们使用了您的图片，请作者与本站联系索取稿酬。如您不希望作品出现在本站，可联系我们要求撤下您的作品。

上一篇文章

AI服务器拉动MLCC需求，双星新材“6天4板”，相关业务收入占比不足1%

返回每经网首页

下一篇文章

热门中概股普遍下跌，纳斯达克金龙中国指数收跌2.50%