文件列表:
东吴证券:人形机器人思考-专题2:我们离真正的具身智能大模型还有多远?.pdf |
下载文档 |
资源简介
>
投资要点
背景:2.20日FigureAI发布HelixVLA大模型引爆市场关注,但我们发现市场对于具身智能大模型的认知仍待提升,本文希望通俗易懂的讲明白,我们需要什么样的具身智能大模型?我们离真正的具身智能大模型还有多远?
问题一:具身智能大模型(VLA)是什么?
VLA(Vision-Language-Action)大模型指的是视觉-语言-动作大模型,能够让机器人通过理解环境和语言指令,并通过执行模块输出为动作。
问题二:VLA大模型中分层和端到端模式的区别?业界目前的选择?
VLA模型在执行过程中,一般有三个步骤——1)接收并理解语音和图像输入;2)根据接收的信息做推理决策;3)根据决策生成动作指令并控制机器人运动。简单来说,如果这三个步骤是在一个模型中完成的,则是端到端大模型,如果这三个步骤分别是调用三个不同的模型完成,则是分层模型。
端到端模式的优缺点:1)优点在于反应速度快+规模化+能够实现智能涌现;2)缺点在于难度高+需要大量训练数据+短期难以落地。
结论&现实情况:短期视角来看,目前国内初创人形机器人企业多采用分层模式,主要是为了快速商业化落地;仅有少数企业例如特斯拉、
加载中...
已阅读到文档的结尾了