开源证券：传媒行业点评报告：GPT-4o多模态能力再跃升，AI应用或加速落地

发布者：wx****8b

2024-05-14

498 KB 3 页

影视开源证券

文件列表：

开源证券：传媒行业点评报告：GPT-4o多模态能力再跃升，AI应用或加速落地.pdf

下载文档

资源简介

OpenAI发布GPT-4o，多模态能力大幅提升且免费对用户开放 5月14日，OpenAI发布了新一代旗舰生成模型GPT-4o。GPT-4o是面向未来人机交互范式的全新大模型，具有文本、语音、图像三种模态的理解力，反应极快还带有感情，也很通人性。GPT-4o主要有几大特点：（1）多模态能力大幅提升，可以跨文本、音频和视频进行实时推理：GPT-4o在英语文本和代码上的性能与GPT-4Turbo的性能相匹配，但在非英语文本上的性能显著提高，与现有模型相比，GPT-4o在视觉和音频理解方面尤其出色，GPT-4o还可以跨文本、音频和视频进行实时推理，用户可以上传各种图片、视频，以及包含图片和文字的文档，讨论其中的内容，使得人机交互更加自然。（2）更加“像人”：GPT-4o能够以自然的、听起来想人类的声音说话，也能够通过音频和图像感知，做出情绪分析。（3）毫秒级响应，API成本更低：在GPT-4o发布之前，通过语音模式与ChatGPT对话，平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4），而GPT-4o的平均响应时间为320毫秒。同时API的速度也更快，成本降低了50%；（4）拥有3

加载中...

已阅读到文档的结尾了

下载文档