中国科学院机构知识库网格系统: 基于编解码框架的端到端语音识别技术研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于编解码框架的端到端语音识别技术研究

文献类型：学位论文


作者	董林昊
答辩日期	2020-06
文献子类	博士
授予单位	中国科学院大学
授予地点	中国科学院自动化研究所
导师	徐波
关键词	语音识别技术神经网络编解码框架端到端建模
学位名称	工学博士
学位专业	模式识别与智能系统
英文摘要	二十一世纪一十年代初以来，被深度学习赋能后的神经网络技术，凭借其突出的建模能力逐步发展为语音识别技术中的主流。同期，为了更好地承载并发挥神经网络的建模优势，语音识别系统框架也不断地推陈出新，兴起了上下文相关-深度神经网络-隐马尔可夫（context-dependent deep neural network hidden Markov model, CD-DNN-HMM）、链接实时分类（connectionist temporal classification, CTC）以及编解码（encoder-decoder）等代表性框架。其中，完全依赖于神经网络进行端到端建模的编解码框架，凭借其“搭建简洁性”及“优化整体性”的优点，成为更具性能潜力及应用优势的一类框架。但由于处在发展起步阶段，基于编解码框架的模型（编解码模型）存在着计算并行性差、识别性能不足、覆盖场景有限等问题，使其在实际语音识别系统中的应用还比较少，其模型潜力亟需进一步发掘。针对于此，本文重点关注于语音识别中编解码模型的设计与改进，并沿着新型模型结构的探索、编码器和解码器的设计与优化、对齐机制的设计与优化的思路展开研究，主要创新成果如下： 1、首次将转换器（transformer）模型引入到语音识别领域，并设计了有效的卷积下采样、前端模块以及相关训练策略，使 transformer 模型以极小的训练代价获得了与基于注意力机制的编解码模型（注意力模型）相当的识别性能，从而侧面缓解了注意力模型由于计算并行性差导致的“训练瓶颈”问题。另外，对 transformer 模型在语音识别任务上的超参数组合进行了对比探究，实验中所验证的最佳超参数组合及相关模型结构被多篇论文所引用，从而在一定程度上推动了 transformer 这种高并行计算的编解码模型在语音识别中的发展。 2、将一种支持在线识别的编解码模型——循环神经对齐器（recurrent neural aligner, RNA）应用到了汉语普通话的语音识别任务，并根据汉语普通话的特点对 RNA 模型的编码器和解码器进行了相应的结构设计。具体地，根据汉语普通话的时域熵密度低且带调的“发音特点”，探究了最佳下采样率及结构组合，并引入了一种门控卷积层来捕捉声学细节（如声调）。根据汉字中大量的同音异形字易引发错别字的“语言特点”，引入了一种置信度惩罚算法来鼓励更充分的备选搜索，并提出了一种使 RNA 模型与语言模型进行联合训练的方法。结合了以上扩展设计后的 RNA 模型在汉语基准数据集上获得了突出的在线识别表现，从而验证了编解码模型在汉语在线语音识别任务上的有效性。 3、提出了一种编解码模型：自注意力对齐器（self-attention aligner, SAA），其使用自注意力网络（self-attention network, SAN）对 RNA 模型中的长短时记忆单元（long short-term memory, LSTM）进行了完全替代。并根据 SAN 的建模特点，对 SAA 模型的编码器和解码器进行了相应的设计与优化，使其不仅在汉语基准数据集上获得了当时最好的端到端识别性能，而且可以支持在线识别。同时，对 SAN 与 LSTM 在编解码模型中的性能表现、训练速度、推理速度进行了对比，证实了 SAN 在语音识别任务上的建模优势。 4、提出了一种低计算复杂度并且具有单调一致性的序列对齐机制：连续整合发放（continuous integrate-and-fire, CIF），来应对主流的注意力模型无法支持在线语音识别、无法进行声学边界定位以及计算复杂度高的问题。同时，还提出了若干支撑策略来进一步精炼基于 CIF 的编解码模型的识别性能，使其在覆盖不同语种、不同语音类型的多个数据集上获得了突出的识别结果。而基于 CIF 的编解码模型可对语音认知中最重要的声学边界进行定位的特点，为语音识别融合各种知识模型提供了新的手段和路径，有效地拓宽了编解码模型潜在的应用场景。
语种	中文
页码	120
源URL	[http://ir.ia.ac.cn/handle/173211/39273]
专题	数字内容技术与服务研究中心_听觉模型与认知计算
推荐引用方式 GB/T 7714	董林昊. 基于编解码框架的端到端语音识别技术研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2020.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。