中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于多信息融合的端到端语音合成方法研究

文献类型:学位论文

作者邹雨巷
答辩日期2020
文献子类硕士
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师徐波
关键词语音合成 多信息融合 端到端
学位专业模式识别与智能系统
英文摘要

深度学习的蓬勃发展极大地推动了语音合成声学建模技术的革新。本文以
深度学习技术为理论基础,围绕基于多信息融合的端到端语音合成方法展开。相
比于传统的拼接合成方法和统计参数方法,端到端方法建模简单,代价小,性能
佳,已成为当前学术研究的主流方法。为了进一步提升合成语音的整体质量,包
括其发音准确性、自然度和音质,本文对融合发音信息和语义信息的端到端语音
合成技术展开了深入研究。本文的主要贡献如下:
1. 本文在端到端语音合成模型Tacotron2 的框架下,研究了不同粒度的建模
单元对中文普通话语音合成的影响。该端到端模型使用带有注意力机制的编码
器-解码器结构,集成了管道式语音合成系统中的韵律预测模型、时长模型以及
声学模型,能隐式地学习输入序列中的韵律模式,不仅能简化现有的管道式语音
合成框架,而且能减少对数据标注的依赖。本文着重研究了汉字、拼音和音素这
三种建模单元对语音合成效果的影响。实验结果表明,拼音建模和音素建模的效
果优于汉字建模,这也说明了直接使用汉字建模是一项非常具有挑战性的任务。
2. 为了提高基于汉字建模的中文语音合成的效果,针对数据稀疏性和多音
字发音问题,提出了一种融合发音信息的端到端语音合成模型。该模型采用了两
种新颖而简单的策略:多任务学习策略和词典指导机制。多任务学习策略通过增
加拼音预测辅助任务,增补了拼音领域知识,从而有助于编码器学习更好的特征
表示。词典指导机制利用了外部词典中丰富的文本与发音信息,有助于纠正多音
字和生僻字的发音错误。实验证明,对比基于汉字建模的基线系统,所提出的这
两种方法能显著提升合成语音的自然度和可懂度,使得系统能直接从中文汉字
序列合成语音。
3. 为了提升合成语音的自然度和韵律感,提出了一种融合语义信息的端到
端语音合成模型。该模型将预训练模型BERT 提取的文本嵌入作为额外输入,加
入到基于Tacotron2 的端到端语音合成模型中。文本嵌入包含语言学和语义相关
的信息,有助于语音合成系统生成更自然的语音。本文比较了两种不同的融合预
训练文本嵌入的方式(基于特征的方法和基于微调的方法)对语音合成效果的影
响;对于基于特征的方法,进一步研究了文本嵌入的不同加入位置(输入端增强
和输出端增强)的实验效果。实验结果表明,融合BERT 提取的文本嵌入可以加
强端到端语音合成模型的训练,从而提升了合成语音的自然度和韵律感。其中,
使用基于特征的方法,在输入端增强,效果最佳。

语种中文
页码64
源URL[http://ir.ia.ac.cn/handle/173211/39148]  
专题数字内容技术与服务研究中心_听觉模型与认知计算
推荐引用方式
GB/T 7714
邹雨巷. 基于多信息融合的端到端语音合成方法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2020.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。