开源证券：传媒行业点评报告：实时语音模型上线，继续布局AI陪伴及豆包产业链

发布者：wx****57

2025-01-22

475 KB 3 页

影视开源证券

文件列表：

开源证券：传媒行业点评报告：实时语音模型上线，继续布局AI陪伴及豆包产业链.pdf

下载文档

资源简介

豆包实时语音大模型上线并全量开放，或带动用户体验进一步提升 1月20日，豆包正式推出实时语音大模型，并在豆包APP全量开放。豆包实时语音大模型，是一款语音理解和生成一体化的模型，实现了端到端语音对话。相比传统级联模式，在语音表现力、控制力、情绪承接方面表现惊艳，并具备低时延、对话中可随时打断等特性。豆包实时语音大模型主要面向中文语境和场景（可进行英语对话，暂不支持多语种）。依托于语音和语义联合建模，豆包实时语音大模型拥有丰富表现力和巨大拓展潜力，呈现出接近真人的语音表达水准，在语音指令控制的泛化理解和演绎生成方面，显著突破原有边界，且可直接服务广大用户。根据外部用户真实反馈，该模型整体满意度较GPT-4o有明显优势，特别是语音语气自然度和情绪饱满度远高于后者。真人级语音对话能力，或有望带来AI向AGI突破豆包实时语音大模型主要有以下几个特点：（1）突破真人级语音对话能力的限制：真人级语音对话，能提供更为亲和的交互体验和情感价值，或是AI迈向AGI的关键里程碑。团队研发出了一套端到端框架，深度融合语音与文本模态。该框架面向语音生成和理解进行统一建模，最终实现多模态输入和输出效果。（2

加载中...

已阅读到文档的结尾了

下载文档