×
img

开源证券:通信行业点评报告:字节发布豆包实时语音模型,重视AI产业链

发布者:wx****db
2025-01-21
471 KB 3 页
电信 开源证券
文件列表:
开源证券:通信行业点评报告:字节发布豆包实时语音模型,重视AI产业链.pdf
下载文档
字节发布豆包实时语音大模型发布,AI版图持续扩张 2025年1月20日,字节跳动发布豆包实时语音大模型,该模型是一款语音理解和生成一体化的模型,实现了端到端语音对话。相比传统级联模式,该模型在语音表现力、控制力、情绪承接方面表现较强,并具备低时延、对话中可随时打断等特性。在数据收集中,团队筛选并整理大量包含丰富情感的语音数据,涵盖各种场景与情绪状态。在预训练阶段,团队对各模态交织数据进行深入训练,精准捕捉并高效压缩海量语音信息,通过Scaling,最大程度实现语音与文本能力深度融合和能力涌现。在后训练阶段,团队使用了高质量数据与RL算法,进一步提供模型高情商对话能力与安全性,并使大模型同时兼具“智商”与“情商”。 架构支持多模态输入输出,涌现出较强声音控制、声音扮演等能力 在架构方面,豆包团队研发端到端框架,深度融合语音与文本模态,该框架面向语音生成和理解进行统一联合建模,实现多模态输入和输出效果,涵盖S2S(语音到语音)、S2T(语音到文本)、T2S(文本到语音)、T2T(文本到文本)等多种模式。模型涌现多种能力:在声音控制方面,模型不仅能依照基础指令输出,还可遵循丰富的复杂指令;在

加载中...

已阅读到文档的结尾了

下载文档

网友评论>