×
img

太平洋证券:传媒互联网行业周报:OpenAI推出音频模型,腾讯发布混元T1

发布者:wx****c9
2025-03-24
1 MB 21 页
游戏 腾讯 太平洋证券
文件列表:
太平洋证券:传媒互联网行业周报:OpenAI推出音频模型,腾讯发布混元T1.pdf
下载文档
报告摘要 OpenAI推出3款音频模型,实现语音情绪自定义 OpenAI推出全新语音转文本模型gpt-4o-transcribe和轻量版gpt-4o-mini-transcribe,以及文本生成语音模型gpt-4o-mini-tts。其中,语音转文本模型gpt-4o-transcribe基于GPT-4o架构,运用音频数据集进行大量预训练,较此前推出的Whisper拥有更准确的识别能力,尤其在涉及口音、嘈杂环境和不同语速的复杂场景中。从测评结果来看,该模型在大多数主要语言上的表现都优于其他模型,获得了更低的词错误率。文本生成语音模型gpt-4o-mini-tts除了文本转语音功能外,还可在固定音色的基础上,实现情绪、语调、语速、措辞、语句停顿五方面的自定义选择,生成不同情绪的语音内容。 目前,上述三款模型均已开放API,为全球开发者构建语音Agent提供支持;且定价较低,分别为0.6美分/分钟、0.3美分/分钟、15美分/分钟。从应用场景来看,模型可应用于电商智能客服或助手、广告营销音频制作、教育语言学习、情感陪伴、影视及游戏内容配音等。建议关注拥有相关应用场景的公司,如:1)智能客服或

加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>

开通智库会员享超值特权
专享文档
免费下载
免广告
更多特权
立即开通

发布机构

更多>>