中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于多域听觉特征建模的说话人无关语音分离方法研究

文献类型:学位论文

作者范存航
答辩日期2021-05-29
文献子类博士
授予单位中国科学院自动化研究所
授予地点北京市
导师陶建华
关键词说话人无关语音分离 听觉特征建模 深度嵌入式特征 深度注意力融合特征 门控递归融合
学位专业模式识别与智能系统
英文摘要

近年来,为了解决鸡尾酒会议问题,很多语音分离方法被相继提出。特别是基于深度学习的语音分离方法凭借着深度学习的强大建模能力取得了不错的效果,但是其依然会存在一些问题:听觉特征区分性差、相位不匹配和空域听觉特征难以有效融合等。针对这些问题,本文分别从频域、时域和空域三个维度的听觉特征建模进行深入的研究和探索,分别提出了三种说话人无关的语音分离方法,以提高分离后语音的感知质量和可懂度。本文主要工作和创新点可以总结为以下三个方面:

(1) 国际上基于频域的主流语音分离方法存在听觉特征区分性差的问题。为了弥补这个不足,本文提出了基于深度嵌入式特征和区分性学习的语音分离方法。该方法的核心思想是利用深度聚类算法作为区分性特征的提取器,将幅值谱映射到更高维度的深度嵌入式空间。该空间包含着目标说话人的掩蔽值信息,更加具有区分性。然后利用该深度嵌入式特征作为句子级别排列不变性训练(utterance-level Permutation Invariant Training, uPIT)准则算法的输入,对该特征进行建模和语音分离。最后,为了进一步提升语音分离的性能,本文引入了区分性学习准则,增大不同说话人之间的距离同时减小相同说话人之间的距离。在WSJ0-2mix数据集上的实验结果表明,基于深度嵌入式特征和区分性学习的语音分离方法与uPIT语音分离方法相比,SDR评价指标可以相对提升6.9%。

(2) 大部分基于频域上的语音分离方法会存在两点不足:一是相位不匹配的问题即只增强幅值谱特征而不对相位谱做任何处理;二是分离后的语音仍然会包含干扰信号。针对这些不足,本文提出了基于深度注意力融合特征和端到端后置滤波的语音分离方法。该方法包括预分离和端到端后置滤波两个阶段。在后置滤波阶段直接以时域波形点作为听觉特征进行建模。因为时域波形点包含了语音的全部信息,即有幅值谱信息又有相位谱信息。因此端到端的建模过程可以避免相位不匹配的问题。此外,本文还利用注意力机制计算原始混合语音与预分离语音之间的注意力权重获取深度注意力融合特征,使得后置滤波模块可以根据注意力权重动态地关注预分离的语音以达到增强该语音的同时去除干扰的目的。在WSJ0-2mix数据集上的实验结果表明,基于深度注意力融合特征和端到端后置滤波的语音分离方法与(1)中的语音分离方法相比,SI-SNR、SDR、PESQ和STOI可以分别相对提升64.1%、60.2%、25.6%和7.5%。

(3) 目前基于深度学习的多通道语音分离方法难以有效地融合空域特征。为了解决这一问题,本文提出了基于门控递归融合和深度嵌入式特征的语音分离方法。为了充分利用空间信息,本文利用门控递归融合算法将通道间相位差(Iterchannel Phase Differences, IPDs)和幅值谱特征当成两个不同的模态进行深度融合。此外,为了进一步提升多通道语音分离的性能,本文利用工作(1)中的思路提取多通道的深度嵌入式特征对混合语音进行分离。在多通道的WSJ0-2mix数据集上的实验结果表明,基于门控递归融合和深度嵌入式特征的多通道语音分离方法与多通道深度聚类(Multi-channel Deep Clustering, MDC)语音分离方法相比,SDR,PESQ和STOI分别相对提升了16.0%,26.5%和4.4%。

此外,本文的工作不仅取得了阶段性的研究成果,并且相关研究成果已经被成功应用到语音分离系统中。针对多说话人环境下语音的感知质量和可懂度低的问题,我们利用本文提出的语音分离方法构建了中文的语音分离系统。目前,该系统达到了可实用的程度并已经应用到了语音识别和客服质检系统中。

语种中文
页码126
源URL[http://ir.ia.ac.cn/handle/173211/44383]  
专题模式识别国家重点实验室_智能交互
推荐引用方式
GB/T 7714
范存航. 基于多域听觉特征建模的说话人无关语音分离方法研究[D]. 北京市. 中国科学院自动化研究所. 2021.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。