太平洋证券：传媒互联网行业周报：OpenAI推出音频模型，腾讯发布混元T1

发布者：wx****c9

2025-03-24

1 MB 21 页

游戏腾讯太平洋证券

文件列表：

太平洋证券：传媒互联网行业周报：OpenAI推出音频模型，腾讯发布混元T1.pdf

下载文档

资源简介

报告摘要 OpenAI推出3款音频模型，实现语音情绪自定义 OpenAI推出全新语音转文本模型gpt-4o-transcribe和轻量版gpt-4o-mini-transcribe，以及文本生成语音模型gpt-4o-mini-tts。其中，语音转文本模型gpt-4o-transcribe基于GPT-4o架构，运用音频数据集进行大量预训练，较此前推出的Whisper拥有更准确的识别能力，尤其在涉及口音、嘈杂环境和不同语速的复杂场景中。从测评结果来看，该模型在大多数主要语言上的表现都优于其他模型，获得了更低的词错误率。文本生成语音模型gpt-4o-mini-tts除了文本转语音功能外，还可在固定音色的基础上，实现情绪、语调、语速、措辞、语句停顿五方面的自定义选择，生成不同情绪的语音内容。目前，上述三款模型均已开放API，为全球开发者构建语音Agent提供支持；且定价较低，分别为0.6美分/分钟、0.3美分/分钟、15美分/分钟。从应用场景来看，模型可应用于电商智能客服或助手、广告营销音频制作、教育语言学习、情感陪伴、影视及游戏内容配音等。建议关注拥有相关应用场景的公司，如：1）智能客服或

加载中...

本文档仅能预览20页

继续阅读请下载文档