基于证据推理的虚假信息检测研究
文献类型:学位论文
作者 | 许伟志![]() |
答辩日期 | 2023-05-19 |
文献子类 | 硕士 |
关键词 | 虚假信息检测 图神经网络 图结构学习 反事实推理 |
英文摘要 | 虚假信息指的是凭空捏造或刻意篡改真实内容的信息,它已然成为现代社会的一个严重问题。虚假信息的传播不仅会影响个人的决策,也会对公共秩序产生负面影响,例如金融市场、公共卫生领域等。由于社交媒体和互联网技术的普及,虚假信息的传播范围和速度都得到了增强,这也使得虚假信息检测变得更加具有挑战性。目前,已有一大批研究者从检测精确性和鲁棒性的角度提出了许多方法,促进了虚假信息检测任务的发展。然而,该任务下还存在若干个开放性问题还未在前人的方法中得到解决。本文将针对证据的长距离语义依赖关系学习、 冗余信息的噪声影响、多结构化证据间的交互信息建模以及模型预测的鲁棒性这几个方面展开研究,具体研究内容和成果概述如下: (1)基于图结构学习的虚假信息检测模型 在仅含文本证据的场景中,针对证据信息含有大量与验证言论真实性无关的冗余信息这一问题,我们以真实场景中的各类新闻及其相关证据为研究对象, 提出了一种基于图结构学习的虚假信息检测模型。我们首先将非结构化的文本 建模为结构化的图数据,通过邻居信息传播算法学习证据中的长距离语义依赖 信息。同时,基于构建的文本图,我们还设计了一种图结构学习算法,将冗余信 息的去除建模为精简图结构的过程,缓解了证据中的冗余信息对于模型的负面 影响。基于此,我们提出的模型能够为任何下游语义交互模型提供细粒度的证据 语义表达,进而提升模型准确率。我们在不同的下游模型上开展了大量的实验, 结果表明提出的模型都取得超过基线方法的性能。 (2)基于异质图神经网络的多结构化虚假信息检测模型 在现实世界中,证据往往不仅以文本的形式存在,还以表格、列表等半结构化的格式存在。由于这类半结构化数据的特性与文本不同,因此直接将仅含文本 证据的场景中的模型迁移到多结构化场景中,难以取得很好的结果。这就要求研 究者们对多结构化证据专门设计特定的模型。为此,我们提出了一种基于异质图 神经网络的多结构化虚假信息检测模型。首先,我们创新性地设计了一张异质 图,将文本和表格中的单词视为两类不同的节点,在这些节点之间设计了三种 不同的边,即文本内部的边、表格内部的边以及文本和表格证据之间的边。然后 采用异质图神经网络进行邻居信息传播来捕捉不同结构化证据之间的异质关联。 在大规模的基准数据集 FEVEROUS 上开展的大量实验证明了提出的模型的有效 性。 (3)基于反事实推理的虚假信息检测鲁棒性增强方法 虚假信息检测模型的准确率提升并不完全源于模型的语义理解能力提升,部 分提升是由于模型拟合了训练数据集中存在的偏置信息。拟合偏置信息会导致 在不同分布的数据集上模型性能的显著下降,这就是模型的鲁棒性较差的表现。 针对这一问题,本文提出了一种基于反事实推理的方法。具体而言,我们构建了一个事实性场景和一个反事实场景,学习得到相应的模型输出,最后基于潜在输 出模型对两个场景的输出相减,获取抵消偏置信息后的预测结果。与基于数据增 强和权重调整的方法相比,本文提出了一种新的增强鲁棒性的思路,并且在三个不同分布的数据集上进行了大量实验,结果表明提出的方法取得 14% 以上的平均准确率提升。 |
语种 | 中文 |
页码 | 84 |
源URL | [http://ir.ia.ac.cn/handle/173211/52121] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 许伟志. 基于证据推理的虚假信息检测研究[D]. 2023. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。