机器人 “大脑”| 国内外典型具身智能大模型关键信息梳理

2024-12-02 15:39 8954

摘要：

Chat GPT爆火的背后，不仅展示了AI大模型在自然语言处理方面的强大能力，也让人看到了AI大模型与机器人深度融合后，将爆发出巨大潜力的可能性。

Chat GPT爆火的背后，不仅展示了AI大模型在自然语言处理方面的强大能力，也让人看到了AI大模型与机器人深度融合后，将爆发出巨大潜力的可能性。AI大模型是推动人形机器人迈向AGI（通用人工智能）的关键因素，再进一步解释，即基于AI技术打造的具智智能大脑将帮助人形机器人实现在通用应用场景下的落地。

具身智能技术演进路线

大语言模型（LLM）可以帮助机器人提升复杂任务理解、连续对话、零样本推理等方面的能力。然而单LLM是不够的，它属于非具身智能大模型，人形机器人要通往AGI，需要专门针对具身智能领域的多模态大模型 —— 具身智能大模型，来提升机器人在感知、决策、控制、交互等方面的能力。

那么，什么是具身智能大模型，它与非具身智能大模型有什么本质区别呢？笔者浅显理解：他们本质的区别在于服务的对象不同。非具身智能大模型服务的对象是人类，输出的内容是给人看或者给人读，更多还是在人机交互、内容生成等方面展现价值。

而具身智能大模型的服务对象是机器。具身智能大模型输出的内容是需要机器人能够理解，并最终要转化为具体可执行动作的控制指令，以机械臂为例，最终输出可能就是对电机的控制信号。

具身智能大模型被称作为机器人的“大脑”，搭载具身智能大模型，赋予人形机器人“最强大脑”，已成为人形机器人发展的必然趋势。总之，“具身智能大模型 + 机器人”为AGI 走进物理世界提供了更多的可能性。

一、国外典型具身智能大模型

目前，国外典型的具身智能大模型有：

科技大厂和科研院校 —— 谷歌的RT1，RT2以及RTX、英伟达的Eureka和GR00T、英伟达和斯坦福李飞飞团队合作开发的Vima、斯坦福李飞飞团队的VoxPoser以及Meta和CMU（卡内基梅隆大学）联合打造的RoboAgent等。
初创公司 —— PI（Physical Intelligence）的π0、Skild AI的Skild Brain以及Covariant的RFM-1。

1. 科技大厂/科研院校

2. 初创公司

二 . 国外典型具身智能大模型

在国内，我们可以看到，华为、百度、科大讯飞、字节跳动等科技大厂推出的AI大模型基本上都属于非具身智能大模型。不过，他们应该很快会在近一两年内推出专门应用在机器人领域的具身智能大模型。另外，国内一些初创企业已经开始推出自己的具身智能大模型，包括有鹿机器人的Master 2000、若愚科技的九天大模型、千诀科技的千诀· 机器人大模型、穹彻智能的Noematrix Brain、X square（自变量机器人）的Great Wall系列的WALL-A模型以及千寻智能的具身智能大模型。

1. 初创公司