×
img

东吴证券:人形机器人思考-专题2:我们离真正的具身智能大模型还有多远?

发布者:wx****b2
2025-02-27
504 KB 3 页
工业4.0 东吴证券
文件列表:
东吴证券:人形机器人思考-专题2:我们离真正的具身智能大模型还有多远?.pdf
下载文档
投资要点 背景:2.20日FigureAI发布HelixVLA大模型引爆市场关注,但我们发现市场对于具身智能大模型的认知仍待提升,本文希望通俗易懂的讲明白,我们需要什么样的具身智能大模型?我们离真正的具身智能大模型还有多远? 问题一:具身智能大模型(VLA)是什么? VLA(Vision-Language-Action)大模型指的是视觉-语言-动作大模型,能够让机器人通过理解环境和语言指令,并通过执行模块输出为动作。 问题二:VLA大模型中分层和端到端模式的区别?业界目前的选择? VLA模型在执行过程中,一般有三个步骤——1)接收并理解语音和图像输入;2)根据接收的信息做推理决策;3)根据决策生成动作指令并控制机器人运动。简单来说,如果这三个步骤是在一个模型中完成的,则是端到端大模型,如果这三个步骤分别是调用三个不同的模型完成,则是分层模型。 端到端模式的优缺点:1)优点在于反应速度快+规模化+能够实现智能涌现;2)缺点在于难度高+需要大量训练数据+短期难以落地。 结论&现实情况:短期视角来看,目前国内初创人形机器人企业多采用分层模式,主要是为了快速商业化落地;仅有少数企业例如特斯拉、

加载中...

已阅读到文档的结尾了

下载文档

网友评论>