感知线索辅助的语音分离技术研究
文献类型:学位论文
作者 | 郝云喆 |
答辩日期 | 2022-06-18 |
文献子类 | 博士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 徐波 |
关键词 | 鸡尾酒会问题 语音分离 声纹线索 起止线索 多感知线索 |
学位名称 | 工学博士 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 语音分离是指让机器完成从采集的混合语音中自动分离重构目标语音信号的过程,其基本设想是让计算机像人类听觉系统一样在嘈杂环境下拥有选择性聆听的能力。语音盲分离任务要求分离出混合语音包含的所有语音流,通常面临以下两个问题:声源数目不可知问题(unknown source number problem)和标签排列问题(label permutation problem),难以直接落地应用。随着智能终端设备的广泛普及,诸如家居环境、车载环境和视频会议等场景对特定说话人的语音分离技术拥有巨大而迫切的需求。在此背景下,如何利用目标说话人相关的感知线索来辅助语音分离,推动特定场景下技术落地,成为一项热门的研究方向。本文对线索辅助语音分离模型中的相位不匹配问题、低延时流式推断策略、多感知线索调制机制以及线索缺失等关键问题进行了研究。本文的主要研究成果总结如下: 1. 基于声纹线索的语音分离算法研究: 声纹辅助语音分离模型大多采用时频域编码,一般会对幅度相位进行解耦,存在相位不匹配问题。另外,现有工作缺乏面向端侧部署时对模型因果性、流式推理策略的思考。本文提出了一种基于时域编码的声纹辅助语音分离框架,探究了在线流式推理策略。具体地,所提模型采用时域编码将信号直接映射到高维嵌入空间,避免了传统时频域编码的相位不匹配问题,提高了模型性能上限。所提模型以时序卷积网络(Temporal Convolutional Networks, TCN)和双通道循环神经网络(Dual-Path Recurrent Neural Network, DPRNN)作为网络主体架构,探究了非因果、因果条件下模型性能表现。为了模型在端侧能够流式推理,本文针对 TCN 架构模型设计了编解码器端点处理机制和 TCN 网络隐层信息动态缓存复用机制。在语音分离基准数据集 WSJ0-2mix 上的实验结果验证了所提模型的有效性,在华为麒麟 990 芯片端侧部署实验验证了所提流式处理策略的有效性。 2. 基于声纹诱发起止线索的语音分离算法研究: 受听觉场景分析和认知心理学中起始线索的启发,本文提出了基于起止线索的语音分离模型 WASE(learning When to Attend for Speaker Extraction),补充了注意选择在时间维度上的作用机制。具体地,WASE 模型通过注册语音获得声纹表征,依赖声纹表征从混合语音中检测目标说话人的起止时间信息,最后利用感知线索辅助的语音分离技术研究该信息指导分离。根据是否包含停止时间信息,文中分别提出了起始时间线索和起止时间线索。起始线索抑制了起始前的信息,引导模型从特定时间开始分离目标语音;起止线索是对起始线索的进一步补充,引导模型从特定时间区间分离目标语音。进一步地,本文还将起止线索和声纹线索整合,使得模型能够从时间域、特征域两个维度来调制混合语音。在语音分离基准数据集 WSJ0-2mix 上的实验结果表明,基于起止线索的分离模型获得了和声纹线索可比的性能,双线索联合调制相比单一线索获得了更优的性能,这验证了起止线索的有效性和双线索调制的优势。 3. 基于多感知线索的语音分离算法研究: 受人类听觉系统上行通路中空间信息、视觉信息和声纹信息的层次化调制机制启发,本文提出了基于方位、视觉、声纹次序的多感知线索层次化调制的语音分离模型。本文首先基于开源音视频数据集 GRID 仿真生成多通道语音,构建了包含空间信息、视觉信息和说话人信息的全线索语音分离数据集。基于该数据集,本文从方位角信息、视觉唇动和声纹特征三个方面对目标说话人进行建模表征,训练了多线索辅助的语音分离模型。针对现实场景下线索污染甚至不可获取问题,本文提出了线索缺失训练策略,减弱了各子模块之间的相互依赖关系,提高了模型在各种线索缺失场景下的鲁棒性。最终实验表明,多线索辅助分离模型性能大幅优于单一线索,并且能够有效且高效地处理线索缺失场景,验证了多线索联合调制的优势,和线索缺失训练策略的有效性。 |
语种 | 中文 |
页码 | 121 |
源URL | [http://ir.ia.ac.cn/handle/173211/48872] |
专题 | 数字内容技术与服务研究中心_听觉模型与认知计算 |
推荐引用方式 GB/T 7714 | 郝云喆. 感知线索辅助的语音分离技术研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。