文件列表:
NaturalSpeech 2: 潜在扩散模型是自然且零 - shot 的语音和歌唱合成器【英文版】.pdf |
下载文档 |
资源简介
>
英文标题:NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers中文摘要:本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统,同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习,能够实现不同说话人以及多样化合成的语音转换。实验表明,在零样本情况下,与之前的 TTS 系统相比,本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高,并能通过只提供语音提示来实现新的零样本歌唱合成。英文摘要:Scaling text-to-speech (TTS) to large-scale, multi-speaker, and in-the-wilddatasets is important to capture the diversity in human speech such as speakeridentities, prosodies, and styles (e.g., singing). Cur
加载中...
已阅读到文档的结尾了