中国科学院机构知识库网格系统: 基于预训练语言模型的概念体系自动构建方法研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于预训练语言模型的概念体系自动构建方法研究

文献类型：学位论文


作者	王思懿
答辩日期	2024-05-16
文献子类	硕士
关键词	概念体系自动构建强化学习预训练语言模型
英文摘要	概念体系（Taxonomy）描述概念之间的上下位语义关系并使用层次结构组织概念集合，是一类重要的知识体系，被广泛应用于信息检索、个性化推荐和问答系统等任务。目前，大量概念体系主要由人工构建完成，例如，语言概念体系 WordNet 和常识概念体系 Cyc 完全由领域专家构建，DBpedia 中的概念体系是工程师通过观察 Wikipedia 中的概念类别/标签的命名和组织方式后总结得到。这种方式不仅费时费力，构建的概念体系还常常存在大量概念遗漏的情况，使得更新和维护知识库的成本高昂。因此需要使用高效的概念体系自动构建方法。研究人员已经提出了一些方法，这些方法可以大致分为流水线式和端到端式两大类。流水线式方法存在错误传播的问题，而端到端式方法则存在缺乏全局信息指导的问题。本文针对上述问题展开研究，具体包括： 1. 基于强化学习的端到端概念体系自动构建方法针对流水线方法存在的错误传播问题和端到端方法存在的缺乏全局信息指导的问题，本文提出了基于强化学习的端到端概念体系构建方法。该方法利用预训练语言模型提取词语特征，并采用可视矩阵将二维概念树转换为一维序列。随后，利用预训练语言模型再次提取特征，并将其作为概念树的特征，用于指导强化学习动作的选择。概念树的特征不仅包括节点的语义特征信息，还是包含了概念树的结构信息，使得模型能够全面考虑层次结构信息来选择节点的位置。在 WordNet 公开数据集上进行的实验表明，本文的方法相比基线模型在 F1 值上取得了 1.7% 的提升，相比当时的最好结果在同等条件下有 3.9% 的提升。 2. 基于树结构信息感知的概念体系自动构建方法针对端到端方法缺乏对局部信息的处理问题，本文提出了基于树结构信息感知的概念体系自动构建方法。该方法结合了长短期记忆网络和图神经网络，从底向上提取概念树的特征，使得所有信息在根节点处汇聚。这种特征提取方式更有效地保留了概念树的结构信息。本文设计了基于度感知的评价函数，综合考虑了概念树的层次和结构对边的重要性的影响，赋予每条边不同的权重，从而更全面地反映了概念树构建的效果。此外，为了充分利用概念树的局部信息，还考虑了词语之间丰富的关系，而不仅局限于上下位关系。实验结果表明，在公开的 WordNet 英文数据集上相比原有的方法取得了 9.4% 的提升，相比当时最好的结果有 1.3% 的提升，相比第一个方法则有 7.5% 的提升。 3. 基于大模型的概念体系自动构建探索针对大语言模型在概念体系自动构建领域的探索不足的问题，本文对基于大模型的概念体系自动构建进行了实验性探索。为了探索预训练语言模型和大模型在概念体系自动构建任务中的效果，本文进行了一系列对比试验，涉及模型输入、微调方法和模型类型等方面。本文研究了输入模板对上下位关系判断的影响，并尝试了不同的微调方式和模型类型。通过这些实验，希望更深入地了解大语言模型在概念体系构建中的表现行为。在探索实验中，最好的实验结果达到了 76.1% 的 F1 值，相比本文的前两个方法分别取得了 18.1% 和 11.3% 的 F1 值提升，这体现了大模型在概念体系自动构建领域的极大潜力。
语种	中文
页码	60
源URL	[http://ir.ia.ac.cn/handle/173211/56646]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	王思懿. 基于预训练语言模型的概念体系自动构建方法研究[D]. 2024.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。