中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
篇章级实体关系抽取关键技术研究

文献类型:学位论文

作者许豹
答辩日期2023-05-22
文献子类硕士
关键词篇章级实体关系抽取 指代消解 图神经网络 信息瓶颈
英文摘要
实体关系抽取 (Entity Relation Extraction) 旨在抽取文本中实体对所蕴含的语义关系,是自然语言处理领域的一个重要研究方向。根据待处理实体对所在文本的文本长度可以划分为句子级实体关系抽取 (Sentence-level Entity Relation Extraction, SERE) 和篇章级实体关系抽取 (Document-level Entity Relation ExtractionDERE)。本文主要研究篇章级实体关系抽取,目标是从包含多个句子的篇章文本中抽取出不同实体之间的语义关系。该任务具有以下特点:1) 篇章文本中包含多个实体,部分实体具有多个实体指称,存在共指现象,实体表示需要联合多个实体指称;2) 篇章文本中的实体分散在文本各处,判断实体关系需要关注文本中的重要节点信息并进行逻辑推理。如何有效利用实体的不同指称以及筛选文本关键节点对于推理实体关系的准确性有着很大影响。现有方法在实体关系抽取过程中对于篇章中实体指称的使用以及关键语句的关注仍然不够充分,使得抽取性能满足不了实际需求。针对上述问题,本文主要工作如下:
1. 基于指代消解的篇章级实体关系抽取方法:篇章文本中的实体通常包含多个实体指称,根据指称类型可以分为名词短语指称和代词指称。现有方法在进行实体表示过程中均只使用名词短语指称而忽略了代词指称。代词指称在实体指称中占有很大比例,使用代词指称表示实体在丰富实体表示的同时也可以缩短实体间距离,从而降低实体关系推理难度,提高模型推理效果。针对这一问题,本文提出基于指代消解的篇章级实体关系抽取方法,利用指针生成网络模型对篇章文本中的名词短语指称和代词指称进行实体对齐,进而使用对齐后的代词指称和名词短语指称共同作为实体表示构建文本图,推理实体关系。本方法在 DocRED 数据集上 F1 值达到 62.46%,超出基准模型 1.42%,达到了最优效果,证明了该方法的有效性。

 

 2. 基于信息瓶颈的篇章级实体关系抽取方法:篇章级实体关系抽取任务中,文本中存在多句子、多实体和多指称现象,在判别实体关系过程中需要联合不同层级信息进行逻辑推理。现有方法使用全部篇章信息作为推理实体关系依据, 会因数据冗余产生一定的噪声,干扰实体关系推理效果。针对该问题,本文提出 基于信息瓶颈的篇章级实体关系抽取方法,使用实体指称以及句子作为节点构建文本图,在图中节点信息更新过程中使用基于信息瓶颈的图随机注意力方法,让模型自动关注与实体关系判别相关的句子与指称节点,从而降低无关信息对实体关系判别的负面影响,以达到提升模型抽取效果的目标。相较于采用完整图的图注意力方法,本方法在 DocRED 数据集上 F1 值提升 1.85%,证明了该方法的有效性。
语种中文
页码80
源URL[http://ir.ia.ac.cn/handle/173211/51921]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
许豹. 篇章级实体关系抽取关键技术研究[D]. 2023.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。