×
img

华福证券:计算机:多模态,AI大模型新一轮革命

发布者:wx****0c
2024-02-19
3 MB 28 页
互联网 华福证券
文件列表:
华福证券:计算机:多模态,AI大模型新一轮革命.pdf
下载文档
多模态推动人工智能迈向AGI,底层技术日臻成熟 相比单模态,多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,更符合人类接收、处理和表达信息的方式,与人类交互方式更加灵活,表现的更加智能,能够执行更大范围的任务,有望成为人类智能助手,推动AI迈向AGI。就技术架构而言,多模态技术可拆解为编码、对齐、解码与微调等步骤,逐步挖掘多模态关联信息,输出目标结果。文生图CLIP模型为最先成熟的多模态技术,目前,多模态已不再局限于图文两层信息。例如,Meta-Transformer可同时理解并处理12种模态信息。 OpenAI谷歌开启多模态军备竞赛,Sora和Gemini各领风骚 海外龙头具备先发与技术优势,引领多模态大模型前进方向:1)OpenAI近期密集剧透GPT-5,相比GPT-4实现全面升级,重点突破语音输入和输入、图像输出以及最终的视频输入方向,或将实现真正多模态;此外,2月发布文生视频大模型Sora,能够根据文本指令或静态图像生成1分钟的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动,同时也接受现有视频扩展或填补缺失的帧,能够很好地模拟和理解现

加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>