中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于编解码框架的端到端语音识别技术研究

文献类型:学位论文

作者董林昊
答辩日期2020-06
文献子类博士
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师徐波
关键词语音识别技术 神经网络 编解码框架 端到端建模
学位名称工学博士
学位专业模式识别与智能系统
英文摘要

二十一世纪一十年代初以来,被深度学习赋能后的神经网络技术,凭借其突出的建模能力逐步发展为语音识别技术中的主流。同期,为了更好地承载并发挥神经网络的建模优势,语音识别系统框架也不断地推陈出新,兴起了上下文相关-深度神经网络-隐马尔可夫(context-dependent deep neural network hidden Markov model, CD-DNN-HMM)、链接实时分类(connectionist temporal classification, CTC)以及编解码(encoder-decoder)等代表性框架。其中,完全依赖于神经网络进行端到端建模的编解码框架,凭借其“搭建简洁性”及“优化整体性”的优点,成为更具性能潜力及应用优势的一类框架。但由于处在发展起步阶段,基于编解码框架的模型(编解码模型)存在着计算并行性差、识别性能不足、覆盖场景有限等问题,使其在实际语音识别系统中的应用还比较少,其模型潜力亟需进一步发掘。针对于此,本文重点关注于语音识别中编解码模型的设计与改进,并沿着新型模型结构的探索、编码器和解码器的设计与优化、对齐机制的设计与优化的思路展开研究,主要创新成果如下:

       1、首次将转换器(transformer)模型引入到语音识别领域,并设计了有效的卷积下采样、前端模块以及相关训练策略,使 transformer 模型以极小的训练代价获得了与基于注意力机制的编解码模型(注意力模型)相当的识别性能,从而侧面缓解了注意力模型由于计算并行性差导致的“训练瓶颈”问题。另外,对 transformer 模型在语音识别任务上的超参数组合进行了对比探究,实验中所验证的最佳超参数组合及相关模型结构被多篇论文所引用,从而在一定程度上推动了 transformer 这种高并行计算的编解码模型在语音识别中的发展。

        2、将一种支持在线识别的编解码模型——循环神经对齐器(recurrent neural aligner, RNA)应用到了汉语普通话的语音识别任务,并根据汉语普通话的特点对 RNA 模型的编码器和解码器进行了相应的结构设计。具体地,根据汉语普通话的时域熵密度低且带调的“发音特点”,探究了最佳下采样率及结构组合,并引入了一种门控卷积层来捕捉声学细节(如声调)。根据汉字中大量的同音异形字易引发错别字的“语言特点”,引入了一种置信度惩罚算法来鼓励更充分的备选搜索,并提出了一种使 RNA 模型与语言模型进行联合训练的方法。结合了以上扩展设计后的 RNA 模型在汉语基准数据集上获得了突出的在线识别表现,从而验证了编解码模型在汉语在线语音识别任务上的有效性。

        3、提出了一种编解码模型:自注意力对齐器(self-attention aligner, SAA),其使用自注意力网络(self-attention network, SAN)对 RNA 模型中的长短时记忆单元(long short-term memory, LSTM)进行了完全替代。并根据 SAN 的建模特点,对 SAA 模型的编码器和解码器进行了相应的设计与优化,使其不仅在汉语基准数据集上获得了当时最好的端到端识别性能,而且可以支持在线识别。同时,对 SAN 与 LSTM 在编解码模型中的性能表现、训练速度、推理速度进行了对比,证实了 SAN 在语音识别任务上的建模优势。

        4、提出了一种低计算复杂度并且具有单调一致性的序列对齐机制:连续整合发放(continuous integrate-and-fire, CIF),来应对主流的注意力模型无法支持在线语音识别、无法进行声学边界定位以及计算复杂度高的问题。同时,还提出了若干支撑策略来进一步精炼基于 CIF 的编解码模型的识别性能,使其在覆盖不同语种、不同语音类型的多个数据集上获得了突出的识别结果。而基于 CIF 的编解码模型可对语音认知中最重要的声学边界进行定位的特点,为语音识别融合各种知识模型提供了新的手段和路径,有效地拓宽了编解码模型潜在的应用场景。

语种中文
页码120
源URL[http://ir.ia.ac.cn/handle/173211/39273]  
专题数字内容技术与服务研究中心_听觉模型与认知计算
推荐引用方式
GB/T 7714
董林昊. 基于编解码框架的端到端语音识别技术研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2020.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。