文件列表:
甬兴证券:计算机行业点评:AIAgent—人机交互新范式.pdf |
下载文档 |
资源简介
>
事件概述
据智谱微信公众号,公司发布在自主智能体领域最新人机交互范式—
基于CogAgent以及AutoGLM-Web架构,可让AI接受指令并自主操控手机的AIAgent,目标为实现模仿人类的Plan-Do-Check-Act循环,形成自我反馈和自我提升,为迈向AGI愿景夯实基础。
核心观点
AIAgent底层原理:使用VLM与GUI交互,效果与效率双升
据《LightweightNeuralAppControl》(HuaweiNoah’sArkLab等,2024.10)及《CogAgent:AVisualLanguageModelforGUIAgents》(WenyiHong等,2023.12),当前来看,智谱,华为等行业领先厂商多应用VLM(视觉语言模型)执行人机交互程序。大语言模型虽擅长处理文字生成等任务,但在理解与交互GUIs(图形交互界面)方面存在短板,同时大语言模型运算时间及调用成本都相对较高,基于GPT-4o的AIAgent单任务运行时间需约1-2分钟,单任务平均运行成本高达1美元。相比之下,VLM模型直接感知视觉信号,阅读及编程能力得到显著强化。参数量方面,CogAge
加载中...
已阅读到文档的结尾了