声学模型压缩、复合以及语音信号盲分离研究
文献类型:学位论文
作者 | 张辉 |
学位类别 | 博士 |
答辩日期 | 2005 |
授予单位 | 中国科学院声学研究所 |
授予地点 | 中国科学院声学研究所 |
关键词 | 语音识别 变码本数子空间聚类 定点化 声学模型复合 实时盲信号分离 |
其他题名 | Compression and Combination of Acoustic Models and Blind Speech Signal Separation |
中文摘要 | 本论文研究了声学模型的变码本数子空间聚类、声学模型的定点化、声学模型中不同声学基元的复合以及语音信号的实时盲分离。这四个部分的研究目标是减小语音识别的资源占用或者提高语音识别的性能,其中前两个部分致力于减少语音识别资源,后两个部分致力于提高语音识别性能。首先,本文分析了MFCC特征矢量各元素的相对重要程度,分析了特征矢量之间元素的相关性,提出了一种合适的子空间划分方法。在该子空间划分的基础上,应用比特分配算法给各个子空间设置最优的码本数目,从而实现了变码本数的子空间聚类。由于采用识别准确率作为比特分配算法中的迭代度量,因此这样得到的是在特定识别率下具有最小压缩比的声学模型。其次,本文分析了在嵌入式系统上应用时声学模型定点化的必要性,提出了在声学模型定点化过程中关键数学函数以及均值、协方差等参数的定点化原理。实验结果表明,对相同语音信号而言,该定点化算法在嵌入式系统上的识别时间为浮点系统的9.11%;另外,在PC系统上的实验表明,定点算法的识别准确率率比浮点算法仅仅下降了2.08%。因此本文的定点化技术是是有效的。再次,本文研究了由不同声学基元训练的声学模型的复合。在汉语连续语音识别中,流行的基元包括上下文相关的声韵母基元和音素基元。实验发现,有些汉语音节在声韵母模型下有更高的识别率,有些音节在音素模型下有更高的识别率。本文提出一种复合这两种声学模型的方法,一方面在识别过程中同时使用两种模型,另一方面在识别过程中避开造成低识别率的模型。实验表明,采用本文的方法后,音节错误率比音素模型和声韵母模型分别下降了9.60%和6.10%。最后,本文研究语音信号盲分离的实时算法。盲信号分离技术可以应用在语音识别前端,从混合信号中分离出说话者的信号。本文利用二阶统计量并结合语音信号非平稳的特点,采用了两种频域算法对混合语音信号进行实时分离。实验结果表明,这两种算法都是非常有效的实时盲信号分离算法。 |
语种 | 中文 |
公开日期 | 2011-05-07 |
页码 | 62 |
源URL | [http://ir.ioa.ac.cn/handle/311008/998] ![]() |
专题 | 声学研究所_声学所博硕士学位论文_1981-2009博硕士学位论文 |
推荐引用方式 GB/T 7714 | 张辉. 声学模型压缩、复合以及语音信号盲分离研究[D]. 中国科学院声学研究所. 中国科学院声学研究所. 2005. |
入库方式: OAI收割
来源:声学研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。