文件列表:
开源证券:传媒行业点评报告:GPT-4o多模态能力再跃升,AI应用或加速落地.pdf |
下载文档 |
资源简介
>
OpenAI发布GPT-4o,多模态能力大幅提升且免费对用户开放
5月14日,OpenAI发布了新一代旗舰生成模型GPT-4o。GPT-4o是面向未来人机交互范式的全新大模型,具有文本、语音、图像三种模态的理解力,反应极快还带有感情,也很通人性。GPT-4o主要有几大特点:(1)多模态能力大幅提升,可以跨文本、音频和视频进行实时推理:GPT-4o在英语文本和代码上的性能与GPT-4Turbo的性能相匹配,但在非英语文本上的性能显著提高,与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色,GPT-4o还可以跨文本、音频和视频进行实时推理,用户可以上传各种图片、视频,以及包含图片和文字的文档,讨论其中的内容,使得人机交互更加自然。(2)更加“像人”:GPT-4o能够以自然的、听起来想人类的声音说话,也能够通过音频和图像感知,做出情绪分析。(3)毫秒级响应,API成本更低:在GPT-4o发布之前,通过语音模式与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4),而GPT-4o的平均响应时间为320毫秒。同时API的速度也更快,成本降低了50%;(4)拥有3
加载中...
已阅读到文档的结尾了