基于语言知识迁移的端到端语音识别方法研究
文献类型:学位论文
作者 | 白烨![]() |
答辩日期 | 2021-05 |
文献子类 | 博士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 陶建华 |
关键词 | 端到端语音识别、迁移学习、知识蒸馏、老师-学生学习、BERT、非自回归语音识别 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 大规模无标注文本语料中蕴含着丰富的语言知识。提炼出无标注文本语料中的知识来提升分类、匹配、序列标注等语言信息处理任务的性能已经被证实是一种行之有效的手段。然而,对采用神经网络一体化建模的语音识别、机器翻译等文本生成模型,无标注文本语料的优势并没有完全显现出来。这是由于实用的文本生成模型往往是条件化的(如根据语音、图像等生成文本),需要成对数据训练,所以其难以直接利用无标注纯文本数据。已有的一些利用方法存在识别阶段增加额外模型导致开销大、无法利用已训练好的语言模型导致不灵活等问题。如何有效地令基于神经网络一体化建模的文本生成模型利用大规模无标注文本语料中的语言知识,同时避免开销大和不灵活这两个问题,还缺乏深入地研究。 本文从“如何利用纯文本数据提升端到端语音识别性能”这一具体的实际问题出发,以迁移学习为主线方法,面向从大规模无标注文本语料中迁移知识到端到端语音识别模型,在“上文语言知识迁移”、“全局上下文语言知识迁移”、“跨模态全局上下文语言知识迁移”三个递进的层面上,完成了四项创新工作。 1. 提出一种文本知识利用方法。针对已有方法存在识别阶段增加额外模型导致开销大、无法利用已训练好的语言模型导致不灵活的问题,本文提出了一种基于老师-学生学习的文本知识利用方法LST,利用大规模无标注文本语料中的语言知识,来提升端到端语音识别的性能:首先利用语言模型将大规模纯文本中的语言知识表示起来,然后利用老师-学生学习将此语言知识迁移到端到端语音识别系统中。与其它方法相比,该方法不增加预测阶段的计算代价,比较高效;同时,该方法可以利用其它开放获取的已经训练好的语言模型而不需要自行训练,方便灵活。本文还分析比较了该方法与另一种典型的文本知识利用方法浅融合,发现平滑模型估计的分数空间是这两种方法提升识别性能的重要性质。同时,该方法不仅可以应用在语音识别任务,还可以应用在其它所有条件化的文本生成任务中。 |
语种 | 中文 |
页码 | 116 |
源URL | [http://ir.ia.ac.cn/handle/173211/44391] ![]() |
专题 | 模式识别国家重点实验室_智能交互 |
推荐引用方式 GB/T 7714 | 白烨. 基于语言知识迁移的端到端语音识别方法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。