上海AI Lab青年科学家曾嘉:理解、想象、执行一体化的具身操作大模型

海天一地 · 2026-03-09 20799 关注

摘要:

当前具身智能领域面临高质量数据匮乏与模型泛化能力不足的双重挑战,亟需一种数据利用效率更高、泛化能力更强的模型架构。现有视觉-语言-动作(VLA)模型虽具备良好的语义理解能力,却难以建模物理世界的动态演变规律;而世界模型虽能进行物理推演,但在语义跟随与错误纠偏方面存在局限。

评论 0
相关阅读

上划加载更多

已经全部加载,没有更多了