华金证券：传媒行业快报：GPT模型迭代更新，专注多模态与端侧应用

发布者：wx****0e

2024-05-14

284 KB 3 页

影视华金证券

文件列表：

华金证券：传媒行业快报：GPT模型迭代更新，专注多模态与端侧应用.pdf

下载文档

资源简介

投资要点事件：5月14日凌晨，OpenAI发布新一代旗舰生成模型GPT-4o、桌面App，并展示新功能。GPT-4o（“o”代表“Omni”译为全能）更接近自然人机交互。接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出。端到端训练，模型实现文本、图像、音频跨模态整合。根据OpenAI官网，GPT-4o音频反馈时长为232毫秒，平均反馈时长为320毫秒，已接近人类对话发应时间。早期音频模式：由三个独立模型组成（语音转文本-GPT3.5/GPT-4-文本转语音），会丢失大量信息并存在延迟GPT-3.5（2.8秒）、GPT-4（5.4秒），同时无法表达情感、唱歌等。GPT-4o模型特点：实现跨文本、视觉和音频训练，所有输入和输出由单一神经网络处理；实时反馈及情绪感知。各细分表现：语音翻译任务上，优于Whisper-V3以及谷歌和Meta的语音模型；视觉理解表现优于Gemini1.0Ultra与ClaudeOpus；支持3D内容生成。多载体协同应用，价格与效率优势有助于应用生态建立。桌面版应用：融入工作流，实现与用户基于图像、文字、语音的实时交互。手机应用：具备接受环境

加载中...

已阅读到文档的结尾了

下载文档