中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于平行子状态隐马尔可夫模型的噪声鲁棒语音识别研究

文献类型:学位论文

作者张明新
学位类别博士
答辩日期2006-05-31
授予单位中国科学院声学研究所
授予地点声学研究所
关键词语音识别 噪声鲁棒 平行子状态 隐马尔可夫模型
学位专业信号与信息处理
中文摘要目前,语音识别系统在实验室安静环境下已经达到相当高的识别率,然而当系统工作在背景噪声环境下,由于输入语音受到噪声污染,系统识别性能会急剧下降。噪声鲁棒性问题已经成为语音识别系统实用化的主要瓶颈,是语音识别技术当前面临的主要挑战之一。 论文研究的目的是提供一套具有实用价值的完整噪声鲁棒语音识别解决方案,满足实用的两个关键要求:不需要重新训练语音模型、不需要人为干预调整;同时具有良好的噪声鲁棒识别性能。论文在对已有噪声鲁棒语音识别方法研究的基础上,提出了一套基于平行子状态隐马尔可夫模型的噪声鲁棒语音识别方法,并给出了融合该方法语音识别软件设计方案。 本文主要研究工作(○)和创新性贡献(●)如下: ○建立了基于声韵母模型的中文语音识别平台。 ○研究了当前主要的噪声鲁棒语音识别方法,包括:鲁棒特征、谱减、自适应和并行模型结合等方法,并对其鲁棒识别性能进行了实验测试和综合对比,为新方法的性能比较提供了分析依据。 ●提出了一种基于前后向差分动态参数的特征矢量构造方法MFCC_fwD_bwD,用于解决原有的MFCC_D_A特征矢量在并行模型结合中其动态特征参数无法逆变为时序静态矢量的问题。 ●提出了一种“状态间全转移” 的多状态背景噪声模型,用来描述非平稳时变特点的复杂背景噪声,该噪声模型是生成平行子状态隐马尔可夫模型的基本条件。 ●在隐马尔可模型中引入了平行子状态的概念,提出了一种具有平行关系子状态的隐马尔可夫模型结构用作纯净语音模型和多状态背景噪声模型结合后的声学模型,使用该模型进行噪声鲁棒语音识别。 ●针对平行子状态隐马尔可夫模型在识别解码搜索时的子状态处理,给出了三种不同的识别解码策略:子状态最大似然解码策略、联合转移子状态最大似然解码策略和子状态输出概率求和解码策略。 ●给出了基于“增加树”法和上文相关声学模型的识别搜索网格优化方法,用于减少识别搜索网格的前向冗余。 ○给出了融合本文提出的平行子状态隐马尔可夫模型噪声鲁棒方法的语音识别软件设计方案。 本文提出的基于平行子状态隐马尔可夫模型的噪声鲁棒语音识别方法,在各种噪声环境下都大幅提高了语音识别的准确率,鲁棒识别效果非常突出,相对基线系统平均识别准确率提高达25%,明显优于其它噪声鲁棒识别方法,特别是对于非平稳时变噪声也具有良好的鲁棒性能,并且该方法不需要重新训练语音模型和人为干预调整,使其实用优势更为明显。
语种中文
公开日期2011-05-07
页码162
源URL[http://159.226.59.140/handle/311008/86]  
专题声学研究所_声学所博硕士学位论文_1981-2009博硕士学位论文
推荐引用方式
GB/T 7714
张明新. 基于平行子状态隐马尔可夫模型的噪声鲁棒语音识别研究[D]. 声学研究所. 中国科学院声学研究所. 2006.

入库方式: OAI收割

来源:声学研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。