中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
面向短文本的小样本实体链接方法研究

文献类型:学位论文

作者郭世伟
答辩日期2021-05-25
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师马玉鹏
关键词实体链接 小样本学习 零样本学习 Bert 图卷积网络
学位名称硕士
学位专业计算机技术
英文摘要

实体链接是自然语言处理中一项关键技术,旨在通过消歧的方式识别出文本中的实体指称在知识库中所对应的实体项。实体链接技术通常包含三个步骤:命名实体识别、候选实体生成和实体消歧,消歧知识库中的多个候选实体是实体链接技术的关键。近几年随着深度学习技术的发展,依托于大数据和高算力的支持,实体链接在样本数量充足的情形下已经可以取得较高的链接精度。一方面基于深度学习的方法往往需要大量训练样本作为支撑,在一些常见的应用场景下低成本获得大量标注数据较为困难。另一方面一些传统的消歧方法虽不需大量的训练样本,但较深度学习而言在链接精度上仍有较大的差距,有关小样本情形下的实体链接研究也相对较少,这导致小样本情形下的实体链接问题依然面临较多的挑战。此外,相较于针对文档的长文本实体链接,短文本实体链接一般缺乏主题信息,其消歧过程在很大程度上依赖于局部的上下文信息和知识库中的实体项描述。由于短文本中的实体指称数目一般较少,难以通过实体共现率等方法实现实体的协同链接(Collective Entity Linking),可以依赖的先验特征也更少,这些问题导致针对短文本的实体链接技术同样面临一些挑战。针对上述有关小样本和短文本实体链接问题,本文尝试采用管道式(Pipeline)的方式解决短文本上的小样本实体链接问题,即先解决短文本实体链接问题,在此基础上再解决小样本实体链接问题。对于短文本实体链接,现有方法主要通过计算短文本和候选实体描述之间的相似度完成对候选实体集的排序,但并未显式地考虑短文本和候选实体在文本交互上的关联性,针对该问题本文提出短文本交互图的概念,短文本交互图以图数据结构刻画短文本和实体描述文本在字词上的关联性,利用 Bert提取短文本和候选实体描述间的多粒度特征,并在短文本交互图上使用图卷积机制。此外,提出一个将交互图中各节点特征和边信息压缩成稠密向量的方法,以缓解均值池化使图卷积在交互图上发生退化的问题。对于小样本实体链接,本文重点关注于不同领域知识库间的差异性,提出一个基于残差语义的小样本实体链接方法。从文本匹配的角度,提出匹配度语义和领域类型语义的概念,匹配度语义指示了实体指称和候选实体间的匹配度,领域类型语义则指示该实体指称所属的领域类型,使用Bert提取匹配度语义特征和领域类型语义特征。残差语义是两者的差值,残差语义可以在一定程度上抵消不同领域间为实体链接模型带来的特征差异性问题。最后本文在CCKS2020短文本实体链接数据集上设计了一系列相关实验,相关实验结果验证了所提方法的有效性。实验表明所提短文本交互图在链接正确率上超过多个基线模型,引入残差语义后的模型在领域间的小样本实体链接实验上获得更好的结果,平均可获得3%的精度提升,一些类别的链接准确率可提升12%。

页码57
源URL[http://ir.xjipc.cas.cn/handle/365002/7898]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
郭世伟. 面向短文本的小样本实体链接方法研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2021.

入库方式: OAI收割

来源:新疆理化技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。