噪声环境下语音识别研究
文献类型:学位论文
作者 | 蔡志博 |
学位类别 | 博士 |
答辩日期 | 2001 |
授予单位 | 中国科学院声学研究所 |
授予地点 | 中国科学院声学研究所 |
关键词 | 顽健语音识别 倒谱相减 帧解相关 多带模型 子带特征 最小分类误差 |
中文摘要 | 语音识别系统要走出实验室,其中一个必须逾越的壁垒是噪声鲁棒性问题。本文主要探讨语音识别系统对于环境噪声的对策。首先是从提取鲁棒的语音特征角度入手。在介绍最近被发表的基于帧解相关技术(FDP, [81])之后,分析认为,FDP技术在强调语音感知信息、抑制相对平稳的卷积和加性噪声以及语音信号分帧处理带来的帧噪声方面效果显著。但是,其不足之处是对帧谱参数序列施加带通滤波器的处理方式破坏了相对稳定的语音信息结构,导致不利于HMM建模。因此,作者提出CMS一FDP特征,利用CMS处理后的静态MFCC参数与FDP特征互补。实验中的含噪语音为来自于N01SeX一92的噪声和干净语音的叠加。不认人的连呼数字串的识别实验表明,不同信噪比的六种噪声下,CMS一FDP特征比FDP特征有18%到38%的数字误识率下降,与RASTA一PLP相比,误识率下降21%一59/4,取得明显效果。研究表明[2],人耳识别语音是基于部分频率信息获取,然后再逐步融合成音素、音节'、词、句等。利用这一机理,解决噪声鲁棒性问题的另一途径是对语音信号分带处理,建立多带模型。作者考察了组合子带特征和子带模型两种分带处理方案,认为二者在一定条件下是等同的,并给出基于CMS一FDP特征的初步实验结果。结果表明,相比于全带的CMS一FDP特征,在低信噪比下,组合子带特征和子带模型均有明显得识别率改善。不同噪声环境下,人耳对不同频段的语音信息的利用是有选择的。作者引入最小分类误差(MCE)准则来估计来自不同子带的语音信息对识别的贡献。同样是不认人的连呼数字串的识别实验,低信噪比(0一10dB)的窄带和宽带噪声下的实验结果显示,相比于全带CMS一FDP解决方案,运用MCE对权重进行训练后的基于子带CMS一FDP特征的多带模型再次有12%一40%数字误识率下降。 |
语种 | 中文 |
公开日期 | 2011-05-07 |
页码 | 65 |
源URL | [http://159.226.59.140/handle/311008/706] ![]() |
专题 | 声学研究所_声学所博硕士学位论文_1981-2009博硕士学位论文 |
推荐引用方式 GB/T 7714 | 蔡志博. 噪声环境下语音识别研究[D]. 中国科学院声学研究所. 中国科学院声学研究所. 2001. |
入库方式: OAI收割
来源:声学研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。