中国科学院机构知识库网格系统: 面向文本理解的对抗攻防方法研究

面向文本理解的对抗攻防方法研究

文献类型：学位论文

作者

施家辉

答辩日期

2023-08-19

文献子类

博士

关键词

对抗攻击对抗样本对抗防守深度神经网络自然语言处理

英文摘要

随着深度学习的飞速发展，深度神经网络模型由于其强大的特征提取和表征能力，已经广泛应用于计算机视觉、自然语言处理和语音信号处理等多个领域中。然而，随着研究的深入，研究者发现深度神经网络很容易受到对抗样本的攻击。攻击者在原始样本上添加不可察觉的扰动，所生成的对抗样本便能使得深度神经网络模型产生错误的预测结果。对抗样本的存在揭露了深度神经网络模型的脆弱性，对深度学习的安全带来了巨大的威胁。如何提升深度神经网络模型的鲁棒性，是深度学习当下亟待解决的问题。

本文聚焦于文本领域的对抗攻防问题，从对抗攻击和对抗防守两个方面入手，对不同场景中的算法进行了分析，发现现有的攻击算法通常采用搜索的方式来寻找对抗样本，此类方法存在着攻击效率和泛化能力不足等问题。在防守对抗样本的攻击时，现有算法采用对抗训练的方式，将对抗样本添加到模型的训练集中，然后对模型进行再训练。此类方法虽然能够提升模型的鲁棒性，但会大幅降低模型自身的泛化性能，在二者之间无法取得良好权衡。

为了解决上述问题，本文分别从攻击者和防守者的角度，针对性地提出了对抗攻击和对抗防守方法。本文的主要贡献包括：

1. 针对现有黑盒文本对抗攻击算法攻击效率较低的问题，本论文提出了两种基于合作博弈理论的对抗攻击算法，分别实现对目标模型单词级扰动和多粒度扰动的对抗攻击。该方法从合作博弈理论角度出发，将文本模型预测过程建模成文本合作博弈，通过Shapley值解决收益分配问题，来对文本中各成分对于模型预测的重要性进行科学地度量。然后通过模型优化的方法对Shapley值进行估计，避免了对目标模型额外的查询开销，从而加速了攻击算法的搜索过程，有效地提升了攻击的效率。实验结果表明相较基线方法，所提出的方法能够在模型查询次数上降低约50%。

2. 针对现有白盒文本对抗攻击算法泛化能力不足的问题，本论文提出了一种基于掩码语言模型生成的对抗攻击算法。该方法设计了一套端到端的生成方式，将预训练的掩码语言模型作为对抗样本的生成器，并将其连接到目标模型前。为了解决在对抗样本采样过程中梯度无法回传的问题，该方法提出了一种基于狄利克雷分布的重参数采样方法，有效地加速了采样过程。与基于搜索的方法不同，在攻击原始样本时，只需要将其输入到生成器中即可得到相应的对抗样本，无需重新搜索。该方法有效地利用了掩码语言模型蕴含的语义信息，通过端到端的生成方式提升了攻击算法的泛化能力。实验结果表明相较基线方法，所提出的方法能够在对抗攻击成功率上提升约4%，在进行迁移攻击时的攻击时长降低约65%。

3. 针对已有文本对抗防守算法无法在模型鲁棒性和泛化性能中取得良好权衡的问题，本论文提出了一种基于对比学习的对抗防守算法。该方法首先对嵌入空间中的对抗样本表示进行凸包建模，然后通过对比学习保证了原始样本在训练过程中的类间距离。该方法将对比学习融入到对抗训练中，在提升模型鲁棒性的同时维持了模型的泛化性能。实验结果表明相较基线方法，所提出的方法能够在对抗攻击成功率降低约20%，并且保证在原始样本上准确率的下降在2%以内。

语种

中文

页码

124

源URL

[http://ir.ia.ac.cn/handle/173211/52450]

专题

毕业生_博士学位论文

推荐引用方式
GB/T 7714

施家辉. 面向文本理解的对抗攻防方法研究[D]. 2023.

入库方式： OAI收割

来源：自动化研究所

下载0

面向文本理解的对抗攻防方法研究

其他版本