文件列表:
华福证券:计算机行业周报:谷歌Gemini+TPU体系的创新之处.pdf |
下载文档 |
资源简介
>
大模型创新之处:谷歌重磅发布Gemini,多模态应用超预期。12月6日,谷歌正式发布Gemini大语言模型,这是一个多模态大模型,能同时识别文本、图像、音频、视频和代码。Gemini支持自然交错输入,用户可以结合语言、图像、文本和短视频进行交互。发布的三个版本分别为Ultra、Pro和Nano,Ultra最强大,能处理复杂任务,Pro适用于多任务处理,Nano注重端侧处理。GeminiUltra在大规模多任务语言理解数据集(MMLU)中获得高达90.0%的得分率,首次超越人类专家。该模型可以综合运用数学、物理、历史、法律、医学和伦理学等57个科目,展现了卓越的世界知识和问题解决能力。此外,Gemini具备处理图像、视频和音频的能力,甚至更像机器人,具备动作和触摸等功能。在对比Gemini和GPT-4的基准测试中,Gemini最明显的优势来自于它理解视频和音频并与之交互的能力,从测评数据来看,其在多模态任务上全面超越GPT-4V,在最常规的文本基准测试中,Gemini与其他大模型的差距并不大。Gemini1.0的发布展示其面对多模态任务的超强推理能力且在特定任务领先GPT-4v,我们认为
加载中...
已阅读到文档的结尾了