上海AI Lab青年科学家曾嘉：理解、想象、执行一体化的具身操作大模型

2026-03-09 21:57 312

摘要：

当前具身智能领域面临高质量数据匮乏与模型泛化能力不足的双重挑战，亟需一种数据利用效率更高、泛化能力更强的模型架构。现有视觉-语言-动作（VLA）模型虽具备良好的语义理解能力，却难以建模物理世界的动态演变规律；而世界模型虽能进行物理推演，但在语义跟随与错误纠偏方面存在局限。

3月26-27日，在第二届焉知人形机器人大会上，上海人工智能实验室具身智能中心青年科学家曾嘉将发表主题演讲：理解、想象、执行一体化的具身操作大模型。

曾嘉博士于2023年毕业于上海交通大学，长期从事机械臂操作、视觉-语言-动作大模型等研究，在RSS、CVPR、NeurIPS、IEEE T-PAMI等国际顶级会议与期刊上发表论文40余篇，并担任具身操作大模型InternVLA-A1的项目负责人及核心贡献者，同时也是高保真仿真数据InternData-A1的通讯作者。

报告指出，当前具身智能领域面临高质量数据匮乏与模型泛化能力不足的双重挑战，亟需一种数据利用效率更高、泛化能力更强的模型架构。现有视觉-语言-动作（VLA）模型虽具备良好的语义理解能力，却难以建模物理世界的动态演变规律；而世界模型虽能进行物理推演，但在语义跟随与错误纠偏方面存在局限。

针对上述问题，曾嘉博士介绍了InternVLA-A1模型。该模型采用混合专家Transformer架构，将语义理解与未来预测深度融合，实现了“理解、想象、执行”三大能力的统一。为突破数据瓶颈，研究团队构建了规模达6.92亿帧的大规模异构数据集InternData-A1，涵盖真机操作、高保真仿真与人类行为视频，有效支撑模型训练。

实验表明，InternVLA-A1在静态与动态真机操作任务以及仿真测试中均表现出优秀鲁棒性。在高难度动态操作任务上，该模型相比基线方法pi0.5实现了26.7%的性能提升，显著验证了“语义理解+物理预测”融合架构的有效性，也体现了利用异构数据（尤其是无标签视频）训练通用具身智能模型的巨大潜力。