中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
地理知识图谱构建技术研究

文献类型:学位论文

作者仇培元
答辩日期2020-01
文献子类博士后出站报告
授予单位中国科学院地理科学与资源研究所
授予地点中国科学院地理科学与资源研究所
导师王绍强 ; 陆锋
关键词地理知识图谱 地理实体关系三元组抽取 网络文本 无监督学习 知识嵌入
学位名称博士后
英文摘要互联网逐步发展为信息传播交流的主要平台。其中,新闻页面、在线百科、社交网络、数据门户、专业文献等网络文本载体蕴含丰富的隐式地理信息。隐式地理信息的产生标志着地理信息正经历从单一静态到多源动态、从精确结构化到模糊异构、从相对静态到实时更新的巨大变革。这种地理信息的持续泛化过程推动地理信息系统(GIS)由提供信息服务向提供知识服务转变。因此,地理知识图谱作为地理知识组织、表达和挖掘的有效手段,受到广泛关注。构建地理知识图谱成为网络文本蕴含地理信息采集与知识推理的终极目标,即如何自动化地探测地理实体间的空间关系与语义关系,实现地理信息的自动聚合过程。 地理知识图谱将知识以三元组的形式表示。因此,获取新地理实体关系三元组成为地理知识图谱研究的一项重要任务。当前实体关系三元组获取,一方面可通过优化采集策略以针对性获取蕴含新地理实体关系的网络资源,进而使用抽取器获取地理实体关系三元组。另一方面可通过挖掘知识图谱中实体和关系之间的语义联系,利用已有实体和关系推断出新实体关系三元组。然而,网络资源蕴含地理知识的稀疏性严重影响上述2种方法对地理实体关系三元组的抽取与填补效果:(1)描述地理实体及地理关系的文本在网络资源中的比例较少,且文本语境较短、同义词现象明显,导致现有抽取方法难以移植;(2)已有知识图谱中各地理实体之间仅存在少量的地理关系,形成实体链接稀疏的知识图结构,影响基于知识图谱挖掘方法的推断效果。 针对目前网络文本蕴含地理实体关系三元组获取方法存在的问题与不足,本报告以地理信息科学与计算语言学学科交叉为依托,开展以下研究工作: (1)针对地理空间关系词在网络文本分布稀疏导致无监督关系关键词识别方法效果不佳的问题,提出一种语境增强的地理实体关系关键词识别方法。该方法首先通过引入外部分类知识和词向量知识生成地理实体对的增强语境以提高词语频率。之后在通过2种词频统计方法构建的大规模增强语料的基础上,利用词法特征及权重对词语重要性进行评估,识别出地理实体关系关键词。基于真实网络文本的实验验证了提出方法的有效性。 (2)考虑到文本蕴含地理实体关系三元组抽取结果存在一定程度的噪声,提出一种基于通用知识库的地理实体关系过滤方法。该方法充分利用开放知识库资源提供的本体知识、事实知识和同义词知识,自动构建作为评价参照的地理关系知识库。之后,基于类型约束的语义相似性度量方法,实现对所抽取的地理实体关系三元组的质量评价。与现有开放关系抽取工具的对比实验结果表明提出方法能够有效过滤噪声地理实体关系三元组,保证抽取的地理实体关系三元组的有效性。 (3)通过对真实地理知识图谱数据集的探索性分析,证实现有地理知识图谱存在链接稀疏的现象,并影响翻译模型使用已知地理实体和实体关系进行缺失地理实体关系三元组填补的效果。为此,提出一种地理空间约束的地理知识嵌入表示方法。该方法结合地理知识图谱具有空间隐喻的独特性,将隐含的地理实体和地理关系间的空间距离模式引入翻译模型的嵌入表示学习过程,优化地理实体和地理关系在低维向量空间的表示效果。实验结果表明,提出方法能够提升翻译模型在多种任务上的预测效果,改善稀疏链接地理知识图谱中缺失地理实体关系三元组的填补效果。
语种中文
页码94
源URL[http://ir.igsnrr.ac.cn/handle/311030/194098]  
专题地理科学与资源研究所_研究生部
推荐引用方式
GB/T 7714
仇培元. 地理知识图谱构建技术研究[D]. 中国科学院地理科学与资源研究所. 中国科学院地理科学与资源研究所. 2020.

入库方式: OAI收割

来源:地理科学与资源研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。