中国科学院机构知识库网格系统: 面向应用场景的知识图谱构建关键技术研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

面向应用场景的知识图谱构建关键技术研究

文献类型：学位论文


作者	隋典伯
答辩日期	2022-05
文献子类	博士
授予单位	中国科学院自动化研究所
授予地点	北京中关村东路95号
导师	赵军
关键词	知识图谱构建命名实体识别实体关系抽取多模态学习联邦学习
学位专业	模式识别与智能系统
英文摘要	知识图谱（Knowledge Graph）是以三元组为基本语义单元，以有向标签图为数据结构，从知识本体和知识实例两个层次，对世界万物进行体系化、规范化描述，并支持高效知识推理和语义计算的大规模知识系统。知识图谱不仅是实现认知智能的底层支撑和重要手段，还在很多现实应用中发挥着不可替代的作用。但是依靠专家人工编撰来构建知识图谱不仅要花费巨大的人力和金钱成本，还存在着知识覆盖率低、数据稀疏、更新缓慢等问题。因此，本文研究知识图谱自动构建技术。近年来，受益于深度学习的发展，知识图谱自动构建技术取得了长足的进步。但将现有的技术应用到真实场景时还面临着以下问题：（1）在真实应用场景中，信息越来越多地以多模态形式出现，而现有方法缺乏对多模态信息的利用；（2）在真实应用场景中，数据管理与隐私保护的要求日益严格，而现有方法的训练过程需要暴露大量数据；（3）在真实应用场景中，线上部署要求模型精简高效，而现有方法存在模块冗余和显式误差累积问题。本论文针对以上问题展开研究，研究成果和创新点如下：基于多模态信息的中文命名实体识别。针对真实应用场景中信息越来越多地以多模态形式出现，而现有的命名实体识别方法绝大部分都只利用文本信息推断命名实体标签这一矛盾，研究了基于多模态信息的中文命名实体识别技术。主要贡献包括：（1）提出了语音文本双模态命名实体识别任务，阐述了语音模态在中文命名实体识别任务中的重要作用；（2）构建了国际上第一个人工标注的语音文本双模态中文命名实体识别数据集；（3）提出了一种基于多任务学习的多模态中文命名实体识别方法，该方法利用掩码联结时序分类机制捕获模态之间的对齐关系，并利用多任务学习框架进行联合训练。实验结果表明：（1）利用语音模态可以有效提升现有命名实体识别方法的性能，特别是能够有效地减少实体边界识别的误差；（2）提出的方法能够有效捕获对齐关系，从而提升命名实体识别的性能。基于隐私联邦学习的实体关系抽取。针对真实应用场景中数据管理与隐私保护的要求日益严格，而现有方法的训练过程需要暴露大量数据这一矛盾，研究了基于隐私联邦学习的实体关系抽取技术。主要贡献包括：（1）提出了联邦远程监督关系抽取任务，阐述了将联邦学习与远程监督学习结合的意义；（2）提出了噪音鲁棒联邦学习方法，该方法通过建立跨平台之间的协作来缓解联邦远程监督关系抽取中的标签噪音问题；（3）提出了基于集成蒸馏的联邦训练框架，该框架通过模型知识迁移实现联邦中心聚合，进而降低联邦学习中的通信开销。实验结果表明：（1）提出的噪音鲁棒联邦学习方法能够有效缓解联邦设定下的标签噪音问题；（2）提出的基于集成蒸馏的训练框架能够有效降低通信开销。基于序列到集合的知识图谱一体化构建。针对真实应用场景中线上部署要求模型精简高效，而现有方法存在模块冗余和显式误差累积这一矛盾，研究了基于序列到集合的知识图谱一体化构建技术。主要贡献包括：（1）提出将知识图谱一体化构建过程建模为集合生成任务，并阐述了该建模方法的合理性；（2）提出了基于非自回归解码器的集合生成模块，该模块能够同时生成所有集合元素从而缓解序列到序列方法中需建模事实顺序的问题；（3）设计了面向集合的二部匹配损失函数，该函数通过匈牙利算法自动计算集合与集合之间的对应关系，进而以可微分的形式实现序列到集合模型的高效训练。实验结果表明：（1）提出的方法可以在模块精简的情况下，实现知识的准确抽取；（2）提出的方法可以高效地实现模型训练以及新样本推断。
语种	中文
页码	136
源URL	[http://ir.ia.ac.cn/handle/173211/48657]
专题	毕业生_博士学位论文
推荐引用方式 GB/T 7714	隋典伯. 面向应用场景的知识图谱构建关键技术研究[D]. 北京中关村东路95号. 中国科学院自动化研究所. 2022.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。