基于编解码框架的端到端语音识别技术研究
文献类型:学位论文
作者 | 董林昊![]() |
答辩日期 | 2020-06 |
文献子类 | 博士 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院自动化研究所 |
导师 | 徐波 |
关键词 | 语音识别技术 神经网络 编解码框架 端到端建模 |
学位名称 | 工学博士 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 二十一世纪一十年代初以来,被深度学习赋能后的神经网络技术,凭借其突出的建模能力逐步发展为语音识别技术中的主流。同期,为了更好地承载并发挥神经网络的建模优势,语音识别系统框架也不断地推陈出新,兴起了上下文相关-深度神经网络-隐马尔可夫(context-dependent deep neural network hidden Markov model, CD-DNN-HMM)、链接实时分类(connectionist temporal classification, CTC)以及编解码(encoder-decoder)等代表性框架。其中,完全依赖于神经网络进行端到端建模的编解码框架,凭借其“搭建简洁性”及“优化整体性”的优点,成为更具性能潜力及应用优势的一类框架。但由于处在发展起步阶段,基于编解码框架的模型(编解码模型)存在着计算并行性差、识别性能不足、覆盖场景有限等问题,使其在实际语音识别系统中的应用还比较少,其模型潜力亟需进一步发掘。针对于此,本文重点关注于语音识别中编解码模型的设计与改进,并沿着新型模型结构的探索、编码器和解码器的设计与优化、对齐机制的设计与优化的思路展开研究,主要创新成果如下: 1、首次将转换器(transformer)模型引入到语音识别领域,并设计了有效的卷积下采样、前端模块以及相关训练策略,使 transformer 模型以极小的训练代价获得了与基于注意力机制的编解码模型(注意力模型)相当的识别性能,从而侧面缓解了注意力模型由于计算并行性差导致的“训练瓶颈”问题。另外,对 transformer 模型在语音识别任务上的超参数组合进行了对比探究,实验中所验证的最佳超参数组合及相关模型结构被多篇论文所引用,从而在一定程度上推动了 transformer 这种高并行计算的编解码模型在语音识别中的发展。 2、将一种支持在线识别的编解码模型——循环神经对齐器(recurrent neural aligner, RNA)应用到了汉语普通话的语音识别任务,并根据汉语普通话的特点对 RNA 模型的编码器和解码器进行了相应的结构设计。具体地,根据汉语普通话的时域熵密度低且带调的“发音特点”,探究了最佳下采样率及结构组合,并引入了一种门控卷积层来捕捉声学细节(如声调)。根据汉字中大量的同音异形字易引发错别字的“语言特点”,引入了一种置信度惩罚算法来鼓励更充分的备选搜索,并提出了一种使 RNA 模型与语言模型进行联合训练的方法。结合了以上扩展设计后的 RNA 模型在汉语基准数据集上获得了突出的在线识别表现,从而验证了编解码模型在汉语在线语音识别任务上的有效性。 3、提出了一种编解码模型:自注意力对齐器(self-attention aligner, SAA),其使用自注意力网络(self-attention network, SAN)对 RNA 模型中的长短时记忆单元(long short-term memory, LSTM)进行了完全替代。并根据 SAN 的建模特点,对 SAA 模型的编码器和解码器进行了相应的设计与优化,使其不仅在汉语基准数据集上获得了当时最好的端到端识别性能,而且可以支持在线识别。同时,对 SAN 与 LSTM 在编解码模型中的性能表现、训练速度、推理速度进行了对比,证实了 SAN 在语音识别任务上的建模优势。 4、提出了一种低计算复杂度并且具有单调一致性的序列对齐机制:连续整合发放(continuous integrate-and-fire, CIF),来应对主流的注意力模型无法支持在线语音识别、无法进行声学边界定位以及计算复杂度高的问题。同时,还提出了若干支撑策略来进一步精炼基于 CIF 的编解码模型的识别性能,使其在覆盖不同语种、不同语音类型的多个数据集上获得了突出的识别结果。而基于 CIF 的编解码模型可对语音认知中最重要的声学边界进行定位的特点,为语音识别融合各种知识模型提供了新的手段和路径,有效地拓宽了编解码模型潜在的应用场景。 |
语种 | 中文 |
页码 | 120 |
源URL | [http://ir.ia.ac.cn/handle/173211/39273] ![]() |
专题 | 数字内容技术与服务研究中心_听觉模型与认知计算 |
推荐引用方式 GB/T 7714 | 董林昊. 基于编解码框架的端到端语音识别技术研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2020. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。