具身大模型概览:决策与操作的双重架构
1. 决策大模型
这一模型的核心任务是将复杂的任务分解为一系列动作指令,然后交由操作大模型逐一执行。实现这一功能,要采用多模态大模型,例如GPT4V或市场上其他商业模型、开源模型效果也不错。正如我之前所说,对于具身公司而言,自行开发大模型完全没有必要,也很难取得成功。
用例示例: 输入指令“将苹果放入碗中”,决策大模型将输出一系列动作指令,包括“识别苹果”、“抓取苹果”、“识别碗”和“放置苹果于碗内”。现代大模型通常具备物品识别能力,比如能够根据语言描述定位具体物品(学术术语称为visual grounding),这也是为什么说感知算法已经被大模型覆盖了,没有必要了。
此外,大模型的输入也可以是其自身生成的指令,使得机器人能够自问自答、自主完成复杂任务。
2. 操作大模型
这一模型负责根据决策大模型的输出执行具体动作,如“抓取”、“打开”、“旋转”等。显然,操作大模型在重要性和复杂度上都超过了决策大模型。与决策大模型不同,操作大模型需要与机器人硬件深度集成,且必须通过数据采集来实现。
3. 端到端模型的挑战
许多人提到的“端到端”通常指的是像RT1这样的模型,它同时训练决策和操作。这种模型需要大量真实长任务数据才能有效,而要覆盖所有可能的任务,所需的数据量几乎无法穷举,估计需要达到万亿级别。与自动驾驶这一单一任务相比,如果每种任务都需要自动驾驶那么多数据、这一数据量要大得多,因此不太现实。
4. 分层端到端的优势
通过决策大模型和操作大模型的相互配合,这种分层端到端的方法能够完成各种新任务。值得注意的是,决策大模型对所有公司而言都是相同的,起跑线完全一致。任何声称自行开发决策大模型的公司都不足为信。在中国资本市场,有人错误地将具身模型分为“大脑”和“小脑”,认为“大脑”负责决策,“小脑”负责操作。我认为这种划分是错误的,“小脑”应该仅指控制算法,例如维持身体平衡。如果非要进行划分,那么“大脑”对所有公司来说都是相同的,真正的差异在于“小脑”。
5. 当前实践
除了Google,其他公司都采用了两个端到端模型的配合方案。例如,Tesla展示的是操作大模型,Figure采用这种方案,我的弟弟也采用了这一方案,尽管我弟的操作大模型目前仅支持抓取动作。
6. 操作大模型的开发难点
开发操作大模型需要以下三大能力:
自研硬件: 需要完全自研的高性能稳定硬件。如果硬件不是自己的,采集到的数据将毫无用处,一旦硬件更改,就需要重新采集数据。或者当某个部件无法获得,之前的数据将变得无效。所谓跨硬件的算法目前还处于论文阶段,可以参考Open X Embodiment。
数据工程: 涉及数据的采集、组织管理以及与模型的闭环开发。这需要一个具有强大组织能力的团队。
算法能力: 这一点无需多言。
在这三大能力中,硬件是一切的基础。如果没有自己的硬件,就无法根据算法和数据进行硬件的快速优化和修改。此外,一旦某个零部件无法采购,之前的数据将完全失效。
因此,估值逻辑如下:硬件、数据、算法,分别都是0~1分,估值分数是三者相乘。
硬件:如果没有完全自研的硬件,这项就是0;有自研硬件的话,看能力怎么样,最高为1分。
数据:这项比较难量化,主要是看核心团队有没有带领大规模工程师的经验。
算法:要有顶级的算法团队,虽然算法都是开源的,但有没有顶级算法团队还是不一样的。
评论 (0人参与)
最新评论