东吴证券：人形机器人思考-专题2：我们离真正的具身智能大模型还有多远？

发布者：wx****b2

2025-02-27

504 KB 3 页

工业4.0 东吴证券

文件列表：

东吴证券：人形机器人思考-专题2：我们离真正的具身智能大模型还有多远？.pdf

下载文档

资源简介

投资要点背景：2.20日FigureAI发布HelixVLA大模型引爆市场关注，但我们发现市场对于具身智能大模型的认知仍待提升，本文希望通俗易懂的讲明白，我们需要什么样的具身智能大模型？我们离真正的具身智能大模型还有多远？问题一：具身智能大模型（VLA）是什么？ VLA（Vision-Language-Action）大模型指的是视觉-语言-动作大模型，能够让机器人通过理解环境和语言指令，并通过执行模块输出为动作。问题二：VLA大模型中分层和端到端模式的区别？业界目前的选择？ VLA模型在执行过程中，一般有三个步骤——1）接收并理解语音和图像输入；2）根据接收的信息做推理决策；3）根据决策生成动作指令并控制机器人运动。简单来说，如果这三个步骤是在一个模型中完成的，则是端到端大模型，如果这三个步骤分别是调用三个不同的模型完成，则是分层模型。端到端模式的优缺点：1）优点在于反应速度快+规模化+能够实现智能涌现；2）缺点在于难度高+需要大量训练数据+短期难以落地。结论&现实情况：短期视角来看，目前国内初创人形机器人企业多采用分层模式，主要是为了快速商业化落地；仅有少数企业例如特斯拉、

加载中...

已阅读到文档的结尾了

下载文档