硅谷圆桌：中美具身智能公司的四道核心命题

2026年4月底，魔法原子在圣何塞发起了一场全球具身智能创新大会。来自中美两地的机器人公司坐在一起，聊了四个绕不开的问题。

这不是一场发布会秀肌肉，而是一次真正有技术含量的行业对话。数据怎么搞、大脑怎么建、手怎么做、落地怎么推——每个问题背后都有分歧，也有共识。

数据瓶颈：合成数据能不能替代真机采集？

具身模型训练的第一个拦路虎就是数据。真机采集成本高、周期长、场景覆盖有限，合成数据成了绕不开的选项。

但合成数据天然缺真实世界的物理信息——摩擦系数、延迟、触觉反馈这些东西，模拟器很难完美还原。"sim-to-real gap"一直是业界的担忧。

魔法原子总裁顾诗韬给出了一组数据：日均采集约16000条真机数据，再通过数据合成实现1万倍的体量扩展。她提到，新能源汽车制造业是数据采集的富矿——产品迭代快、60%-70%的工序还依赖人工。

亚马逊前沿AI与机器人研究院科学家Haozhi Qi的判断是：合成数据适合训练单一反应式基本技能，但做早餐这类长程任务，还是需要引入真实数据。构建足够丰富的模拟环境，成本太高了。

英伟达GEAR Lab高级研究科学家Zhengyi Luo透露了团队的配比：50%模拟数据用于基础训练，15%动捕数据加25%互联网视频数据用于理解人类动作，10%高质量真实世界数据。有些公司甚至用社交媒体数据来指导机器人本体设计。

视觉-语言-行动（VLA）架构凭借任务泛化能力，成了当下具身模型的主流范式。但它有盲区。

人类转篮球的时候靠的是触觉和本体感知，不需要视觉。VLA在这两个感知系统上存在短板。

Haozhi Qi的解释是：VLA的流行跟硬件传感器发展程度有关。视觉传感器已经成熟，但触觉传感器还在初级开发阶段。通过视觉和语言补足触觉缺陷，是当前最好的工程选择。未来传感器成熟后，算法也会随之迭代。

灵巧手设计的核心问题只有一个：要不要像人手？答案不同，路线就不同。

连杆方案最不像人手，但成本低、易于控制。腱绳方案最像人手，能做精细操作，但成本高、控制难。直驱是折中，把驱动单元集成在关节上，但力传导效率和热管理还有工程挑战。

Chestnut Robotics创始人、前Tesla Optimus灵巧手核心成员Evan Tao介绍，团队选了混合架构——以腱绳结构为主，辅以AI控制和自主学习。"所有方案都会在灵活度和工程可靠性之间找平衡。"

XGSynBot CEO Zizheng Li认为，机器人需要从"单一功能设备"向"多任务通用平台"演进。XGSynBot的机械臂带6个Quick-change模块化系统，一台机器人可以在不同工序间灵活切换。

OpenMind创始人、斯坦福大学生物工程副教授Jan Liphardt的建议很直接：机器人进入真实世界，越早越好。

他发现实验室环境无法模拟所有复杂场景——过亮的光线、泥泞潮湿的地面、生锈的门铰链、多个系统同时运行的负载。这些真实场景往往导致机器人离开实验室后出现系统故障。

他的建议是：尽早让机器人在家庭、学校、机场等公共场景实际部署，收集交互数据，持续迭代。

来源：36氪