华福证券：传媒GPT-4o：开启AI语音助手时代，关注与IOS系统和Windows系统的进展

发布者：wx****53

2024-05-14

306 KB 2 页

游戏华福证券

文件列表：

华福证券：传媒GPT-4o：开启AI语音助手时代，关注与IOS系统和Windows系统的进展.pdf

下载文档

资源简介

投资要点：一、GPT-4o模型基座：三种模态的混合模型，带来更大泛化能力 PT-4o是文本、视觉和音频的端到端训练的一个新模型，这意味着所有输入和输出都由同一个神经网络处理。对文本、音频和视觉三种模态统一进行混合训练，因而大部分数据都是通过无监督学习实现；相比过去拼接模型需要对视觉进行标注，混合模型在整体数据量规模上可以做得更大，进而带来更大的泛化能力。二、GPT-4o奠定AI语音助手基础：低延迟+情绪感知+视觉感知 1、AI语音基础：接近于人类对话响应速度。GPT-4o可以在短短232毫秒内响应音频输入，平均为320毫秒，这类似于对话中的人工响应时间，没有表现出丝毫延迟的视觉和声音反馈。在GPT-4o之前，使用语音模式与ChatGPT交谈平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。 2、情绪感知能力：情绪的感知是对语音一维输出模态的丰富。GPT-4o不仅能感受到你的情感，还自带情绪和情感，并且用户可以随时打断AI的话，互动更加拟人。视觉感知能力：适配AI手机、AI电脑和AI智能硬件。手机端ChatGPT可以依靠手机摄像头和用户实时互动，如实时教人做题，观察房间

加载中...

已阅读到文档的结尾了

下载文档