中国科学院机构知识库网格系统: 语音识别中的汉语口音自适应问题研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

语音识别中的汉语口音自适应问题研究

文献类型：学位论文


作者	刘明宽
学位类别	工学硕士
答辩日期	2000-06-01
授予单位	中国科学院自动化研究所
授予地点	中国科学院自动化研究所
导师	黄泰翼 ; 徐波
关键词	语音识别自适应发音字典地方口音
学位专业	模式识别与智能系统
中文摘要	虽然近十多年来，语音识别研究在大词汇量、非特定人、连续语音识别(LVCSR)上取得了巨大进展，在一般的办公环境下对标准语音和规范新闻类语料的识别已可达到90％以上。但是目前的语音识别技术同人类的听觉能力相比还相差很远。以目前的LVCSR系统为例，它除了对不同听写领域、环境噪声高度敏感外，还对说话人的发音有着相当严格的要求。当说话人发音不太标准或者带一些口音时，系统性能就会急剧下降。因此解决语音识别中说话人的口音自适应问题成为了语音识别实用化最迫切的研究课题之一。根据音位学上的观点，不同人之间的发音差别可以分为两类：一类发音差别属于同一音位的不同音素变体之间的差别；而另一类发音差别则完全是由一个音位变化到另外一个完全不同的音位，这种差别构成了区分功能上的对立。以上两种发音差别都存在于地方口音同标准普通话发音之间的发音差异中。本文认为对于第一种发音差异可以通过在声学模型层对模型参数进行调整的方法如MAP或MLLR等算法来实现自适应。而对于第二种发音差异，则可以通过发音字典自适应的方法比较有效地实现口音自适应。本文以大词汇量、非特定人、连续语音识别为背景，以隐马尔可夫模型为基本框架，从发音字典自适应的角度详细探讨分析了汉语连续语音识别中的地方口音自适应问题。在论文里详细讨论了如何利用发音建模技术来建立反映地方口音发音变化的音节发音变异词典的过程，并进一步提出了上下文相关发音字典的概念，进而探讨了如何在识别系统中应用这些信息的理论框架。在本文的最后总结出了一套比较实用的说话人地方口音自适应方案，为今后在这方面的进一步研究开发工作奠定了基础。
语种	中文
其他标识符	577
源URL	[http://ir.ia.ac.cn/handle/173211/7310]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	刘明宽. 语音识别中的汉语口音自适应问题研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2000.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。