个性化语音合成方法研究
文献类型:学位论文
作者 | 傅睿博![]() |
答辩日期 | 2020-05-28 |
文献子类 | 博士 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院大学 |
导师 | 陶建华 |
关键词 | 语音合成 个性化定制 声学建模 说话人特征空间建模 韵律建模 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 目前的语音合成技术已经发展相对成熟,然而在合成风格上普遍较为单一,且构建门槛高,已不能满足当前用户日益增长的个性化应用需求。个性化语音合成旨在提供多风格定制化的合成系统,提升用户在教育、娱乐、导航、智能硬件等诸多应用场景的交互体验,具有重要的研究价值。建模的数据有限且缺乏专业标注等因素对实现高质量的个性化语音合成是个巨大的挑战。语音合成技术正在经历从级联式框架到端到端框架的转变,两者各有利弊,在个性化语音合成中都占有重要地位。本文以基于深度学习语音合成方法为理论基础,聚焦于个性化语音合成方法研究,具体围绕级联式语音合成和端到端语音合成框架展开研究。现有个性化语音合成系统的不足主要体现在三个方面:发音欠清晰,音色易失真,韵律较平淡。为了提高个性化合成语音的整体质量,本文分别从声学建模、说话人特征空间建模、韵律建模这三个方面对个性化语音合成方法进行探索,主要研究成果如下: |
语种 | 中文 |
页码 | 152 |
源URL | [http://ir.ia.ac.cn/handle/173211/39310] ![]() |
专题 | 模式识别国家重点实验室_智能交互 |
通讯作者 | 傅睿博 |
推荐引用方式 GB/T 7714 | 傅睿博. 个性化语音合成方法研究[D]. 中国科学院大学. 中国科学院大学. 2020. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。