中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于迁移学习的小数据语音声学模型研究

文献类型:学位论文

作者易江燕1,2
答辩日期2018-05-29
授予单位中国科学院研究生院
授予地点北京
导师陶建华
关键词迁移学习 小语种 口音自适应 声学模型 语音识别
英文摘要
基于深度学习的声学模型促使语音识别取得重大突破,但是深度学习需要“大
数据”。然而,大多数语言的资源极为匮乏,即便是资源丰富的语言,因口音数据
的分布差异较大,导致某种口音数据较少。显然,小样本数据的收集和标注难度较
大且成本高昂。因此,解决此类问题具有重要的研究价值,亦存在巨大的挑战。本
文旨在基于深度学习的声学模型基础上,利用迁移学习的方法,从其他语言的大数
据中“迁移”知识帮助“小数据”的目标声学模型更好地学习。本文主要研究两种
情形下的“小数据”问题:不同语言的跨语言迁移和相同语言的跨口音迁移。针对
这两种情形,分别从瓶颈特征、模型参数和后验概率层面,提出了三种改进的迁移
学习方法,以提高“小数据”声学模型的性能。本文的创新点和主要贡献大致可概
括为以下三方面:
(1)国际上主流的瓶颈特征迁移方法存在两点缺陷:一是没有考虑源语言和目
标语言的相似性;二是多语言瓶颈特征中包含了语言相关的信息。为了尽量弥补这
些不足,本文提出了对抗多语言训练的瓶颈特征迁移方法。该方法的核心思想是以
提出的两种共享私有瓶颈模型作为源声学模型,然后在多语言训练准则中引入对
抗学习的策略,从而阻止源声学模型的共享层学习语言相关的特征。此外,在选择
源语言时,考虑了源语言和目标语言的相关性,选择与目标语言语系相同的语言作
为源语言。在IARPA Babel 数据集上的实验结果表明,基于对抗多语言训练的瓶
颈特征迁移方法与经典的瓶颈特征迁移方法相比,词错误率最多相对下降了8.9%。
(2)经典的跨语言参数迁移方法存在两方面的不足:一是忽略了多语言模型应
学习语言相关特征这一事实;二是共享隐层学习了很多语言依赖的特征。为了弥
补这些缺陷,本文提出了对语言对抗的模型参数迁移方法。本文将语言对抗策略
与迁移学习方法相结合训练对抗共享私有模型,此外,提出了两种新的迁移策略。
共享私有模型不仅能学习语言无关的特征,而且能捕捉语言依赖的信息。语言对
抗策略保证了共享层尽可能多地学习通用特征。语言无关的通用特征能显著地提
高目标声学模型的性能。在IARPA Babel 数据集上的实验结果表明,基于语言对
抗学习的模型参数迁移方法与经典的跨语言参数迁移方法相比,词错误率最多相
对下降了9.7%。
(3)若直接对基于联结时序分类(connectionist temporal classification,CTC)
的端到端声学模型进行参数调整,可能会破坏该模型的概率分布,从而引起过拟合
的问题。当自适应数据很少时,过拟合问题更为严重。为了避免此问题,本文提出
了基于CTC 正则口音自适应的后验概率迁移方法。这种方法的核心思想是在标准
的CTC 损失函数上增加一个正则化项,从而迫使自适应模型的后验概率分布尽可
能接近口音独立模型的后验概率分布。换言之,从口音独立模型中迁移后验概率
辅助自适应模型学习。在普通话方言口音公共数据集RASC863 和CASIA 上的实
验结果显示,本文所提方法不仅明显优于口音独立的基线模型,而且比L2 和线性
隐层网络(linear hidden network,LHN)自适应方法更有效,尤其是当自适应数
据只有1000 句时。
此外,本文不仅取得了阶段性的研究成果,而且相关研究成果已被成功应用于
语音识别系统中。就不同语言的跨语言迁移而论,我们利用本文提出的瓶颈特征
和模型参数迁移方法为粤语、上海话和蒙古语等小语种构建了语音识别系统。就
相同语言的跨口音迁移而论,我们利用本文所提CTC 正则的后验概率迁移方法对
声学模型进行自适应。所构建的普通话语音识别系统达到可实用的程度,目前已
应用于客服质检和对话系统中。

源URL[http://ir.ia.ac.cn/handle/173211/21012]  
专题毕业生_博士学位论文
作者单位1.中国科学院大学
2.中国科学院自动化研究所模式识别国家重点实验室
推荐引用方式
GB/T 7714
易江燕. 基于迁移学习的小数据语音声学模型研究[D]. 北京. 中国科学院研究生院. 2018.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。