基于连续学习的生成语音检测方法研究
文献类型:学位论文
作者 | 马浩鑫![]() |
答辩日期 | 2022-05-17 |
文献子类 | 硕士 |
授予单位 | 中国科学院大学 |
授予地点 | 中科院自动化研究所 |
导师 | 陶建华 |
关键词 | 生成语音检测,连续学习,知识蒸馏,样例回放 |
学位专业 | 计算机技术 |
英文摘要 | 智能语音技术在日常生活中必不可少,语音导航、智能音箱、智能客服等等都为人们的生活带来了诸多便利,合成语音在听感上已经可以逼近人声,但这也是一把“双刃剑”,对于合成语音的不良运用将会给政治安全、经济安全、社会安全带来诸多危害,如:抹黑公众人物、破坏企业形象和金融市场的稳定、造成公民的财产损失等。针对生成语音的检测技术成为近年来的研究热点,然而由于生成语音的类型多样、生成技术日新月异,检测模型难以应对训练集外的未知类型生成语音和跨数据集特征不匹配的生成语音,如何提升模型在未知类型和跨数据集生成语音上的泛化性成为一大难题。本文从模型更新的角度提出一种解决方案,该方案基于连续学习,通过设计适用于生成语音检测的增量式学习算法来帮助模型连续性地学习生成语音特征,与语音生成技术一同进化,持续更新,从而对新的生成语音进行快速及时地相应,提升模型泛化性。本文的工作和创新点可以总结为以下两个方面: (1)当旧数据无法获取时,本文提出了一种无需原始数据存储的正则化方法:知识蒸馏连续表征方法。该方法基于经典连续学习方法LWF(Learning Without Forgetting),在其基础上加入了真实语音样本表征对齐约束,在计算蒸馏损失的同时将新模型所学的真实语音的特征向量与相应真实语音在旧模型上的特征向量进行余弦相似性计算,若两者接近,这说明新模型继承了旧模型中的知识。LWF方法中的蒸馏损失则是通过全部数据在新旧模型中的输出来将旧模型中的知识传递给新模型。为了灵活控制蒸馏损失和真实语音余弦相似性损失在模型训练中的重要程度,知识蒸馏连续表征方法对两者添加了权重系数。在英文和中文数据集中的5种连续学习实验表明,知识蒸馏连续表征方法相比于直接微调的AvgEER降低了19.12%至82.56%,且其性能优于经典的LWF方法。 (2)当旧数据可以获取时,本文提出了一种需要少量数据存储的样例回放方法:边界生成语音回放方法。该方法受到经典连续学习方法iCaRL的启发,在模型可以正确判别出的生成语音中,通过K近邻算法挑选距离真实语音类平均向量最近的m个生成语音样本进行存储。该方法既避免了离群点被挑选入回放样本,又可以挑选出处于类边界出的生成语音样本,同时只保存生成语音类别的做法可以节约存储空间。在英文和中文数据集的2种连续学习实验表明,边界生成语音回放算法相比于ER方法的AvgEER分别降低了38. 83%和14.24%,相比于iCaRL方法的AvgEER分别降低了37.30%和8.41%,且只需要一半的存储空间。 以上工作不仅取得了有效的成果,相关研究还获得国家专利和软件著作权授权,也已应用于公安部和工信部等的业务中。 |
语种 | 中文 |
页码 | 58 |
源URL | [http://ir.ia.ac.cn/handle/173211/48826] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 马浩鑫. 基于连续学习的生成语音检测方法研究[D]. 中科院自动化研究所. 中国科学院大学. 2022. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。