×
img

上海证券:互联网传媒行业周报:周观点:MMICL支持多模态混合输入,苹果支持3A主机游戏

发布者:wx****fa
2023-09-25
392 KB 3 页
影视 上海证券
文件列表:
上海证券:互联网传媒行业周报:周观点:MMICL支持多模态混合输入,苹果支持3A主机游戏.pdf
下载文档
主要观点9月11日,继各类单一模态输入的多模态语言模型后,新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出,可以实现文本、图像、语音和视频之间的自由转换,是第一个实现从任一模态到任一模态转换的通用多模态系统。NExT-GPT的优势在于:1)支持任意模态的输入和输出,充分模拟了人类处理信息的能力,是向通用人工智能目标迈进的重要一步;2)通过组合优化利用现有的各类开源模块实现全能目标。9月19日,北京大学、北京交通大学等单位或机构联合开源发布多模态大模型MMICL,在MMbench和MME榜单目前浮动排名均保持在前三位。MMICL最大的特色在于同时接受文本和图像的交错输入,它可以分析两张图像的关系,也可以从视频中提取时空信息。目前MMICL已开源两个版本,分别基于FlanT5XL和Vicuna模型,可满足商用和科研需求。MMICL拥有理解推理多幅图像间关系、类比推理、支持实时视频流输入等核心功能,可有效应对复杂的多模式快速理解的挑战。根据我们“大模型+小模型+应用&内容”的研究框架,我们认为国内大模型行业的发展已经从原本追赶补齐大模型能力的阶

加载中...

已阅读到文档的结尾了

下载文档

网友评论>