中英文混合语音合成系统
文献类型:学位论文
作者 | 张毅 |
学位类别 | 工学硕士 |
答辩日期 | 2009-05-27 |
授予单位 | 中国科学院研究生院 |
授予地点 | 中国科学院自动化研究所 |
导师 | 陶建华 |
关键词 | 英文语音合成 中英文混合 韵律模型 基元选取 English TTS Chinese–English Mixed Language TTS Prosody Model Unit Selection |
其他题名 | Chinese-English Mixed-Language TTS system |
学位专业 | 模式识别与智能系统 |
中文摘要 | 语音合成技术是人机语音通信的重要组成部分,基于此开发的产品涉及到人类生产生活的很多方面。随着信息化程度的提高,国际交流的频繁尤其是互联网的发展,不同语言之间的交流越发重要,越来越多的多语言混合应用开始涌现。在生产生活中,我们经常遇到在中文句子中混合有英文的名字,专有名词,或者某些习惯用语的情况。因此,实现多语言混合语音合成是语音合成技术广泛应用的必要环节。 本文的研究工作包括: 开发了基于波形拼接技术的英文语音合成系统,对各模块使用的关键技术进行分析和探讨。使用二元语法模型进行词性预测,最大熵模型进行韵律短语边界预测,讨论了英文语音合成的基本单元及其优缺点,考虑了使用中文语音合成系统中成熟的韵律预测方法进行英文韵律预测的效果。声学模块给出了目标代价和拼接代价的考虑因素和计算方法。 详细分析了中文和英文的区别,这些区别是中英文混合合成系统设计和开发的难点和要点所在。分析了在中英文混合语料中中文和英文的相互影响,包括两个方面:一个是中文声调和英文重音的关系,第二是中文和英文在韵律上的相互影响。基于分析结果,提出了针对嵌入在中文上下文中的英文的韵律调整模型,包括时长调整模型和基频调整模型,从而产生自然度高的混合韵律。 构建了中英文混合语音合成系统,在实现过程中,主要关注了中文合成系统和英文合成系统的融合,增加了韵律调整模块,并且针对一类常见中英文混合现象-中文句嵌入字母词,提出了有效的解决方案。 |
英文摘要 | Text-to-Speech(TTS) technology is one of the most important parts of human-machine speech communication, products based on it have been used in many fields. However, with the rapid development of international communication and internet, the intercommunication of different languages becomes more and more important. The situation we usually meet is: some English words are embedded in Chinese texts, such as Names, Proper Nouns and Common words. Therefore, mixed-language TTS is an essential step for the future of TTS. This article develops an English TTS system based on wave combination, discusses the main technologies used in each module. Such as Bi-Gram Model in POS(Part Of Speech) tagging function, Max Entropy Model in prosodic phrase prediction. It also analyzes different basic units and the strength and weakness of them, and tests the prosody prediction model, which is originally used in Chinese TTS system, in predicting English prosody. A detailed explanation about target cost and concatenate cost is given in the paper. It gives an overall analysis about the differences between Chinese and English, analyzes inter-influence between Chinese and English in bilingual corpus, which includes two aspects: the relationship of English stresses and Chinese tones; the prosodic inter-influence. It proposes a prosodic adjustment model based on the above results in order to generate natural bilingual prosody. Finally, a Chinese-English mixed-language TTS system is constructed, special attentions have been paid to combining Chinese TTS and English TTS, and a prosody adjustment module is added. What’s more, we bring forth an effective proposal to solve the common bilingual situation: lettered-words. |
语种 | 中文 |
其他标识符 | 200628014628072 |
源URL | [http://ir.ia.ac.cn/handle/173211/7477] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 张毅. 中英文混合语音合成系统[D]. 中国科学院自动化研究所. 中国科学院研究生院. 2009. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。