数据“燃料”催化具身智能：训练工厂涌现行业加速破局

　　数据被称为具身智能产业发展的“燃料”。近日，帕西尼具身智能超级数据工厂(Super EID Factory在天津空天数字产业园投用。帕西尼感知科技创始人兼CEO许晋诚告诉记者，数据的短缺是目前具身智能发展面临的瓶颈，目前具身智能产业可用的数据量仅为大语言模型可用数据量的几百分之一。

　　目前，国内多地建立具身智能数据采集工厂，有帕西尼在天津的工厂、智元机器人在上海的工厂，以及北京具身智能机器人创新中心的工厂。中国证券报记者先后探访了两家具身智能数据采集工厂，了解其技术手段以及数据赋能产业的方式。行业专家表示，具身智能数据采集工厂的建设刚刚起步，未来需要与产业需求结合，同时具身智能数据采集的统一与规范是加速行业发展的基础。

　　生产数据的“超级工厂”

　　在天津空天数字产业园，帕西尼极具现代感的银灰色建筑格外显眼。在这座12000平方米的工厂内，生产的核心产品不是实体，而是“数据”。

　　数据被称为具身智能产业发展的“燃料”。“从数据中进行模仿学习是具身智能模型进化的最具潜力途径之一。”许晋诚对记者表示，相比今年实现突破性进展的DeepSeek等大语言模型，具身智能目前能使用的数据量仅为大语言模型的几百分之一。

　　“现在的大语言模型使用的数据规模达到十万亿级，具身智能大模型的数据规模差不多在百万量级。数据的短缺是目前具身智能发展面临的瓶颈。”许晋诚说。

　　在帕西尼天津数据工厂的大厅，覆盖了一整面墙的大屏幕上显示着工厂的数据采集情况。屏幕上显示的数据每三秒刷新一次，当天屏幕显示，工厂的数据合格率达到92%以上。许晋诚表示，目前帕西尼天津数据工厂每天最多可采集55万条数据，预计工厂每年可生产高质量数据2亿条。

　　高工机器人产业研究所所长卢瀚宸告诉记者，训练具身智能大模型的数据主要分为仿真合成数据和真实数据两大类，还有一些厂商采用低成本的互联网数据用于机器学习。“真实数据采集的成本最高、采集难度最大，但质量最好，是目前具身智能产业发展最需要的资源。”

　　在上海浦东，占地3000平方米的智元数据采集中心已于2024年9月启动。记者近期实地探访看到，百台机器人在不同场景中忙碌作业，有的机器人上下挥舞机器手臂在滚动的传送带上熟练分拣物品，有的机器人摆动着机械双手在数据采集员的动作指导下灵活折叠衣物，还有的机器人化身收银员，站在商场柜台后对商品进行扫码结算。

　　智元机器人合伙人姚卯青介绍，智元数据采集中心已累计采集超百万条高质量数据，覆盖家居、餐饮、工业、商超和办公五大类真实场景。

　　卢瀚宸认为，不同于大语言模型的训练已经出现阶段性突破，具身智能领域尚无人能证明通过大规模的数据训练“复现”大语言模型的成功。但要让具身智能机器人更“智能”，可应用于更多场景，必须通过大量数据采集和大模型的训练。同时，具身智能的数据采集必须与产业需求结合，方能实现数据采集的闭环，让数据采集有“用武之地”。

　　数据采集方式各异

　　厂商对真实数据的采集方式也有不同。

　　在帕西尼天津数据工厂，数据采集员们正在进行各类原动作的采集，比如超市商品扫码、清理枕头、摆放餐具等。一名采集员穿戴数据采集设备PMEC，一边进行着摆放瓷盘、瓷筷的动作，一边查看数据生成情况。

　　这种由采集员直接穿戴硬件设备采集数据的方式称为“人类数据采集”。许晋诚认为，人类数据采集的方法具备独特优势，包括更高的效率和经济性，以及能直接采集稀缺的人类触觉模态数据。

　　帕西尼基于在多维度阵列式触觉感知领域的技术积累和量产经验，自主研发了PMEC超采技术。数据采集员双手穿戴具有手部全运动自由度和全触觉信号覆盖采集功能的硬件设备，获取操作动作所涉及的多视角视觉、触觉、接触点位姿等信息。这些原始信息经过帕西尼TacFlow Engine工具进行后处理，最后用于VTLA具身智能大模型或HyperCosmos世界模型的预训练。

　　“目前机器人普遍掌握的动作是抓取、摆放。要应用到更多场景，我们需要把场景中的长程任务拆分成更加细化的工序，甚至是原子动作，目前，机器人执行任务的原子动作库还远远不够。”许晋诚表示。

　　数据采集间内的训练就是要增加机器人所掌握的原子级技能，从而实现更多精细复杂的任务，如拧螺丝、折叠、熨烫、舀取、切割等。“我们把这些动作进行采集，训练成技能，变成模型，最终给到机器人使用。”许晋诚告诉记者，目前帕西尼天津数据工厂已完成上百种任务的采集，千种任务预计一年内可采集完成。

　　智元机器人主要采用了机器人遥操作采集方法。在一家饮品店的训练场景下，数据采集员操作着机械臂重复着抓取饮品杯、放入托盘、装入打包袋、打包吸管等动作。姚卯青介绍，为采集一条有效数据，每次物品摆放位置都需调整，每完成10次操作还要更换包装袋和饮品杯样式，每天重复采集约200条数据，直到机器人学会这项工作。每个场景采集上百遍数据，可以提升机器人执行任务的鲁棒性。

　　此外，智元机器人于今年3月发布了通用具身基座模型——智元启元大模型(GO-1，加速了数据训练的效率，借助大模型的泛化推理能力，大幅减少机器人学习一项任务所需的数据采集量。

　　数据采集规范仍是痛点

　　如何让具身智能产业可用数据规模快速扩充，尽快推动产业发展，帕西尼和智元机器人都选择构建开放生态。帕西尼天津数据工厂的具身智能训练数据，可应用于多模态、跨本体、跨任务、跨场景的具身智能扩散模型之中。

　　2024年12月，智元机器人开源了行业首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集AgiBot World。截至目前，AgiBot World已被全球多家科技企业用于最新具身模型的开发当中。

　　但具身智能数据的标准化问题仍是行业痛点。埃夫特董事长游玮对记者表示，由于缺乏数据采集规范，当前采集的一些机器人训练数据难以被迁移和复用。游玮表示，只有提升数据采集规范，使高质量数据可以复用，构建起足够规模和质量的数据资源库，才能形成合力，推动机器人产业持续进阶，更广泛地落地应用。

　　卢瀚宸认为，数据标准化和质量提升是具身智能产业发展的关键，但这一过程并不容易实现，数据归属、复用、定价等问题仍未解决。

　　为推动具身智能数据采集的高效利用，许晋诚表示，帕西尼目前正在参与订立数据采集方面的标准，并将于近期发布。

王擎宇

数据“燃料”催化具身智能：训练工厂涌现 行业加速破局

相关推荐

数据“燃料”催化具身智能：训练工厂涌现行业加速破局