数据“燃料”催化具身智能:训练工厂涌现 行业加速破局

  数据被称为具身智能产业发展的“燃料”。近日,帕西尼具身智能超级数据工厂(Super EID Factory在天津空天数字产业园投用。帕西尼感知科技创始人兼CEO许晋诚告诉记者,数据的短缺是目前具身智能发展面临的瓶颈,目前具身智能产业可用的数据量仅为大语言模型可用数据量的几百分之一。

  目前,国内多地建立具身智能数据采集工厂,有帕西尼在天津的工厂、智元机器人在上海的工厂,以及北京具身智能机器人创新中心的工厂。中国证券报记者先后探访了两家具身智能数据采集工厂,了解其技术手段以及数据赋能产业的方式。行业专家表示,具身智能数据采集工厂的建设刚刚起步,未来需要与产业需求结合,同时具身智能数据采集的统一与规范是加速行业发展的基础。

  生产数据的“超级工厂”

  在天津空天数字产业园,帕西尼极具现代感的银灰色建筑格外显眼。在这座12000平方米的工厂内,生产的核心产品不是实体,而是“数据”。

  数据被称为具身智能产业发展的“燃料”。“从数据中进行模仿学习是具身智能模型进化的最具潜力途径之一。”许晋诚对记者表示,相比今年实现突破性进展的DeepSeek等大语言模型,具身智能目前能使用的数据量仅为大语言模型的几百分之一。

  “现在的大语言模型使用的数据规模达到十万亿级,具身智能大模型的数据规模差不多在百万量级。数据的短缺是目前具身智能发展面临的瓶颈。”许晋诚说。

  在帕西尼天津数据工厂的大厅,覆盖了一整面墙的大屏幕上显示着工厂的数据采集情况。屏幕上显示的数据每三秒刷新一次,当天屏幕显示,工厂的数据合格率达到92%以上。许晋诚表示,目前帕西尼天津数据工厂每天最多可采集55万条数据,预计工厂每年可生产高质量数据2亿条。

  高工机器人产业研究所所长卢瀚宸告诉记者,训练具身智能大模型的数据主要分为仿真合成数据和真实数据两大类,还有一些厂商采用低成本的互联网数据用于机器学习。“真实数据采集的成本最高、采集难度最大,但质量最好,是目前具身智能产业发展最需要的资源。”

  在上海浦东,占地3000平方米的智元数据采集中心已于2024年9月启动。记者近期实地探访看到,百台机器人在不同场景中忙碌作业,有的机器人上下挥舞机器手臂在滚动的传送带上熟练分拣物品,有的机器人摆动着机械双手在数据采集员的动作指导下灵活折叠衣物,还有的机器人化身收银员,站在商场柜台后对商品进行扫码结算。

  智元机器人合伙人姚卯青介绍,智元数据采集中心已累计采集超百万条高质量数据,覆盖家居、餐饮、工业、商超和办公五大类真实场景。

  卢瀚宸认为,不同于大语言模型的训练已经出现阶段性突破,具身智能领域尚无人能证明通过大规模的数据训练“复现”大语言模型的成功。但要让具身智能机器人更“智能”,可应用于更多场景,必须通过大量数据采集和大模型的训练。同时,具身智能的数据采集必须与产业需求结合,方能实现数据采集的闭环,让数据采集有“用武之地”。

  数据采集方式各异

  厂商对真实数据的采集方式也有不同。

  在帕西尼天津数据工厂,数据采集员们正在进行各类原动作的采集,比如超市商品扫码、清理枕头、摆放餐具等。一名采集员穿戴数据采集设备PMEC,一边进行着摆放瓷盘、瓷筷的动作,一边查看数据生成情况。

  这种由采集员直接穿戴硬件设备采集数据的方式称为“人类数据采集”。许晋诚认为,人类数据采集的方法具备独特优势,包括更高的效率和经济性,以及能直接采集稀缺的人类触觉模态数据。

  帕西尼基于在多维度阵列式触觉感知领域的技术积累和量产经验,自主研发了PMEC超采技术。数据采集员双手穿戴具有手部全运动自由度和全触觉信号覆盖采集功能的硬件设备,获取操作动作所涉及的多视角视觉、触觉、接触点位姿等信息。这些原始信息经过帕西尼TacFlow Engine工具进行后处理,最后用于VTLA具身智能大模型或HyperCosmos世界模型的预训练。

  “目前机器人普遍掌握的动作是抓取、摆放。要应用到更多场景,我们需要把场景中的长程任务拆分成更加细化的工序,甚至是原子动作,目前,机器人执行任务的原子动作库还远远不够。”许晋诚表示。

  数据采集间内的训练就是要增加机器人所掌握的原子级技能,从而实现更多精细复杂的任务,如拧螺丝、折叠、熨烫、舀取、切割等。“我们把这些动作进行采集,训练成技能,变成模型,最终给到机器人使用。”许晋诚告诉记者,目前帕西尼天津数据工厂已完成上百种任务的采集,千种任务预计一年内可采集完成。

  智元机器人主要采用了机器人遥操作采集方法。在一家饮品店的训练场景下,数据采集员操作着机械臂重复着抓取饮品杯、放入托盘、装入打包袋、打包吸管等动作。姚卯青介绍,为采集一条有效数据,每次物品摆放位置都需调整,每完成10次操作还要更换包装袋和饮品杯样式,每天重复采集约200条数据,直到机器人学会这项工作。每个场景采集上百遍数据,可以提升机器人执行任务的鲁棒性。

  此外,智元机器人于今年3月发布了通用具身基座模型——智元启元大模型(GO-1,加速了数据训练的效率,借助大模型的泛化推理能力,大幅减少机器人学习一项任务所需的数据采集量。

  数据采集规范仍是痛点

  如何让具身智能产业可用数据规模快速扩充,尽快推动产业发展,帕西尼和智元机器人都选择构建开放生态。帕西尼天津数据工厂的具身智能训练数据,可应用于多模态、跨本体、跨任务、跨场景的具身智能扩散模型之中。

  2024年12月,智元机器人开源了行业首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集AgiBot World。截至目前,AgiBot World已被全球多家科技企业用于最新具身模型的开发当中。

  但具身智能数据的标准化问题仍是行业痛点。埃夫特董事长游玮对记者表示,由于缺乏数据采集规范,当前采集的一些机器人训练数据难以被迁移和复用。游玮表示,只有提升数据采集规范,使高质量数据可以复用,构建起足够规模和质量的数据资源库,才能形成合力,推动机器人产业持续进阶,更广泛地落地应用。

  卢瀚宸认为,数据标准化和质量提升是具身智能产业发展的关键,但这一过程并不容易实现,数据归属、复用、定价等问题仍未解决。

  为推动具身智能数据采集的高效利用,许晋诚表示,帕西尼目前正在参与订立数据采集方面的标准,并将于近期发布。

王擎宇本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 support1012@126.com 举报,一经查实,本站将立刻删除。
标签: /
上一篇2025-06-28

相关推荐

  • 灰度迷你比特币信托自推出以来净流入超10亿美元

    灰度宣布旗下迷你比特币信托(BTC)2024 年净流入超过 10 亿美元。截至 12 月 17 日,该 ETF 资管规模超过 40 亿美元。 7 月份,灰度从其较旧的 BTC 和 ETH 基金中分拆出

    2025-06-28 12:03:32
    2025
  • 被动投资“大时代”来临!

    有公募人士认为,ETF大发展因素较为复杂,核心原因是曾经追捧主动权益明星基金经理的基民,大家的投资体验都不太好,进而也对主动权益的超额创造能力产生了一些质疑,因此

    2025-06-28 12:03:32
    2005
  • 宝莱特:前10个月已回购297.06万股股份 耗资2000万元

    针对产品研发和新业务布局,宝莱特还表示,2023 年,公司推出了S系列输注液 泵、电子尿量计量仪、遥测监护系统等全新系列产品,目前公司紧密推进G系列监护仪、CRRT、AED

    2025-06-28 12:03:32
    2005
  • 2025年春风行动已举办4.1万场招聘活动

    人力资源社会保障部今天(3月13日)发布数据,截至3月5日,全国已累计举办各类招聘活动4.1万场,发布岗位3100万个;发出务工人员专车、专列、包机2.9万辆(列、架)次,输送劳

    2025-06-28 12:03:32
    2004
  • 去年以工代赈吸纳就业总数同比增长31%

    2024年,国家发展改革委支持各地围绕农村小微型基础设施实施2726个以工代赈项目,吸纳36万名农村脱贫人口等低收入群众务工。各地围绕交通水利、农业农村、生态建设、

    2025-06-28 12:03:32
    2004
  • 证监会:权益类ETF规模突破3万亿元大关

    证监会19日发布的公告称,今年9月,证监会会同中央金融办出台了推动中长期资金入市的指导意见,着力打通社保、保险、理财等资金入市的堵点痛点,建设培育鼓励长期投资的

    2025-06-28 12:03:32
    2004
  • 落实增储任务、加强精益管理 中央储备粮安全保障能力增强

    增加小麦、玉米等品种收储规模,跨地区平衡、跨周期调节能力和应急保供水平进一步提升。不断加强储粮精益化管理,中央战略储备粮综合储存损耗率持续控制在1%以内。

    2025-06-28 12:03:32
    2003
  • 今年前10月新疆霍尔果斯口岸进出口货运量超3800万吨

    视频无法播放,请升级浏览器至最新版。 据霍尔果斯海关统计,霍尔果斯口岸今年前10月进出口货运量达3801.1万吨,同比增加10%。 从商品种类来看,进口商品主要为机电产品

    2025-06-28 12:03:32
    2003