中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
面向知识图谱补全的小样本学习方法研究

文献类型:学位论文

作者李金林
答辩日期2024-05-18
文献子类硕士
关键词小样本学习 知识图谱补全 交互学习 预训练语言模型 大语言模型
英文摘要

随着移动互联网的持续发展,数据量呈爆炸式增长,知识图谱成为有效管理
这些海量数据的工具。在知识图谱中,实体和概念被表示为节点,而这些节点之
间的联系则通过边的形式明确呈现。大规模知识图谱的一个显著特性是其数据
呈长尾分布,因此如何准确地预测知识图谱中的低频关系是当前研究中亟待解
决的问题。本文通过结合深度学习、预训练语言模型和大语言模型中的先进技
术,研究基于交互学习、文本增强和大模型精排的知识图谱小样本学习方法。本
论文的主要工作内容和研究贡献总结如下:
1. 基于交互学习的小样本学习方法
针对现有方法中支持集和查询集在建模过程中互相独立的问题,本文提出
了基于交互学习的小样本学习方法。现有研究方法中,由于分别对支持集和查询
集建模,导致不同关系任务的查询集三元组向量相同,且由于向量维度限制,难
以实现关系特征的多角度和多层次表示。此外,查询的头实体和尾实体间可能存
在多种关系,其中不相关的关系可能干扰任务关系的语义表示。为了更好适应
各类关系任务,模型需要能根据不同关系类型建立动态的向量表示。这种任务
关系语义信息隐含在支持集内,本文通过事实交互学习方式来发掘此隐含信息,
并将其用于调整查询集的建模。为了增强模型泛化能力,在模型中加入了自适应
损失模块,使模型对难以分类的负样本更为关注,提升了该模型的鲁棒性。经过
在两个公开基准数据集上进行实验,验证了方法的有效性。
2. 实体描述增强的小样本学习方法
为了解决由于背景知识图谱信息不足而导致实体表示错误的问题,可以考
虑采用多种方法来增强实体表达。在本文中采用了为实体提供相关文本描述的
方法,以便更全面地描绘出实体的属性和关系。本文提出了异构信息融合的方法,
通过单层图神经网络提取实体在背景知识图谱上的邻域信息,同时使用BERT 提
取实体的文本语义信息。为了有效区分不同信息特征的重要性,本文设计了一个
门控网络,用于在特征融合过程中进行自适应权重调控,从而更好地利用不同来
源的信息。为了验证模型的效果,本文提出了FB15K-237-One 数据集。在该数
据集上,本文的模型取得了最优性能。通过本文的研究工作,成功解决了因背
景知识图谱信息不足导致的实体表示错误问题。
3. 基于大模型精排的小样本学习方法
在知识图谱小样本学习领域,大模型仍处于探索阶段,本文提出了一种基于
大模型精排的小样本学习方法。随着自然语言处理技术的不断演变,预训练语言
模型已逐步发展为大语言模型,其卓越的语义理解和推理能力在各领域均展现
出优异性能。在实体描述增强的小样本学习方法的研究基础上,本文通过与高
效微调方式结合,实现了在消费级中低端设备上微调大模型进行知识图谱小样
本学习。具体实现方式为,首先利用召回模型在FB15K-237-One 数据集上运行,得到重排数据集,然后将其构建为易于LLaMA2 理解的形式,最后结合高效微调方法来微调参数。实验结果显示,基于LoRA 微调的LLaMa2 在重排数据集上表现出色,展现了其在知识图谱小样本学习任务上的有效性和优越性,为小样本知识图谱补全提供了一种新的思路和途径。

语种中文
页码58
源URL[http://ir.ia.ac.cn/handle/173211/56648]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
李金林. 面向知识图谱补全的小样本学习方法研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。