硅谷圆桌:中美具身智能公司的四道核心命题

AI 摘要

魔法原子在硅谷发起具身智能大会,中美机器人公司围绕数据、大脑、灵巧手、规模化落地四大命题展开深度对话,揭示具身智能从实验室走向真实世界的关键路径。

2026-05-04·出海情报站·阅读需8分钟

2026年4月底,魔法原子在圣何塞发起了一场全球具身智能创新大会。来自中美两地的机器人公司坐在一起,聊了四个绕不开的问题。

这不是一场发布会秀肌肉,而是一次真正有技术含量的行业对话。数据怎么搞、大脑怎么建、手怎么做、落地怎么推——每个问题背后都有分歧,也有共识。

数据瓶颈:合成数据能不能替代真机采集?

具身模型训练的第一个拦路虎就是数据。真机采集成本高、周期长、场景覆盖有限,合成数据成了绕不开的选项。

但合成数据天然缺真实世界的物理信息——摩擦系数、延迟、触觉反馈这些东西,模拟器很难完美还原。"sim-to-real gap"一直是业界的担忧。

魔法原子总裁顾诗韬给出了一组数据:日均采集约16000条真机数据,再通过数据合成实现1万倍的体量扩展。她提到,新能源汽车制造业是数据采集的富矿——产品迭代快、60%-70%的工序还依赖人工。

亚马逊前沿AI与机器人研究院科学家Haozhi Qi的判断是:合成数据适合训练单一反应式基本技能,但做早餐这类长程任务,还是需要引入真实数据。构建足够丰富的模拟环境,成本太高了。

英伟达GEAR Lab高级研究科学家Zhengyi Luo透露了团队的配比:50%模拟数据用于基础训练,15%动捕数据加25%互联网视频数据用于理解人类动作,10%高质量真实世界数据。有些公司甚至用社交媒体数据来指导机器人本体设计。

VLA是具身大脑的最优解吗?

视觉-语言-行动(VLA)架构凭借任务泛化能力,成了当下具身模型的主流范式。但它有盲区。

人类转篮球的时候靠的是触觉和本体感知,不需要视觉。VLA在这两个感知系统上存在短板。

Haozhi Qi的解释是:VLA的流行跟硬件传感器发展程度有关。视觉传感器已经成熟,但触觉传感器还在初级开发阶段。通过视觉和语言补足触觉缺陷,是当前最好的工程选择。未来传感器成熟后,算法也会随之迭代。

灵巧手:三条技术路线之争

灵巧手设计的核心问题只有一个:要不要像人手?答案不同,路线就不同。

连杆方案最不像人手,但成本低、易于控制。腱绳方案最像人手,能做精细操作,但成本高、控制难。直驱是折中,把驱动单元集成在关节上,但力传导效率和热管理还有工程挑战。

Chestnut Robotics创始人、前Tesla Optimus灵巧手核心成员Evan Tao介绍,团队选了混合架构——以腱绳结构为主,辅以AI控制和自主学习。"所有方案都会在灵活度和工程可靠性之间找平衡。"

规模化落地的关键变量

XGSynBot CEO Zizheng Li认为,机器人需要从"单一功能设备"向"多任务通用平台"演进。XGSynBot的机械臂带6个Quick-change模块化系统,一台机器人可以在不同工序间灵活切换。

OpenMind创始人、斯坦福大学生物工程副教授Jan Liphardt的建议很直接:机器人进入真实世界,越早越好。

他发现实验室环境无法模拟所有复杂场景——过亮的光线、泥泞潮湿的地面、生锈的门铰链、多个系统同时运行的负载。这些真实场景往往导致机器人离开实验室后出现系统故障。

他的建议是:尽早让机器人在家庭、学校、机场等公共场景实际部署,收集交互数据,持续迭代。

来源:36氪