地理科技文献蕴含关键知识要素抽取方法研究
文献类型:学位论文
作者 | 李威蓉 |
答辩日期 | 2023-06 |
文献子类 | 学术型学位 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院地理科学与资源研究所 |
导师 | 诸云强 |
关键词 | 地理科技文献 地理知识抽取 位置嵌入 命名实体识别 预训练模型 |
学位名称 | 博士 |
学位专业 | 地图学与地理信息系统 |
英文摘要 | 地理大数据背景下,信息海量、数据爆炸与知识难求间的矛盾日益突出,难以满足国家和各行业对地理知识的迫切需求。如何从海量地理大数据中挖掘出高质量的地理知识,成为当前的研究热点。地理科技文献作为多模态地理大数据的重要组成部分,不仅具有质量和可靠性高、时效性强等诸多优势,还蕴含着极其丰富的地理知识。其中,地理主题词、时间、空间是地理科技文献蕴含的关键知识要素,对于实现高质量地理知识服务具有重要支撑作用。因而,如何从地理科技文献中挖掘出地理主题词、时间、空间(地名)等关键知识要素成为当前亟待解决的问题。地理科技文献蕴含关键知识要素的抽取类似于自然语言处理中的命名实体识别任务。基于命名实体识别的基础理论与技术,发展了很多针对地理文本中主题词、时间和空间等知识抽取方法,可分为基于规则的方法、基于机器学习的方法以及基于深度学习方法三类。其中,基于深度学习的方法取得了最高性能,也是目前主流的方法。然而,这些方法缺乏对于文本中词汇位置信息的完整考虑,导致无法准确捕捉词汇间的关系,从而限制了知识抽取性能。而且,对于多实体联合表达的信息,这些方法易错误地将其识别为多个单一实体,也影响了知识抽取的完整性。与社交媒体、新闻文本、广告等网络文本相比,地理科技文献通常包含更多的长句,具有更复杂的语义关系,上述问题在地理科技文献蕴含知识抽取上表现更为明显。为了提高科技文献蕴含地理主题词、时间和空间信息抽取的准确性与完整性,本文针对上述问题,开展了系列研究并取得了相应的研究成果,具体如下:1)地理科技文献及其蕴含关键知识要素分析。首先对地理科技文献进行了综合分析,然后探讨了地理主题词、时间、空间等关键知识要素的内涵。最后,基于此,明确了关键知识要素的内容和范围。该项成果能够为后续关键知识要素抽取提供指导。2)基于相对位置嵌入增强的BERT 的地理主题词抽取方法。该方法在BiLSTM-CRF 架构的基础上,集成了基于相对位置嵌入增强的BERT 模型。并通过系列实验的评估和验证,证明该方法解决了现有研究的问题,增强了词间关系建模能力,提升了抽取效果。还将抽取结果与现有地理知识库(SWEET、GCMD、地理科学叙词表、GeoWordNet)进行对比,其结果进一步揭示该方法还可识别新地理主题词,可用于丰富现有的地理知识库。3)基于完整位置嵌入的DeBERTa 的多类型地名抽取方法。该方法在BiLSTM-CRF 中引入了基于完整位置特征的DeBERTa 模型。通过设计实验对该方法进行了评估和验证。结果表明,该方法可同时对句子中单词的绝对位置和单词间的相对位置进行建模,增强了模型对句子中单词位置的敏感性,有效提升了地名抽取效果, 并且还将抽取结果与全球地名词典(GeoNames 、OpenStreetMap、Getty Thesaurus of Geographic Names) 进行对比,发现结果中包含一些新地名,表明该方法还具有新地名的抽取能力,可用于更新和丰富现有地名词典。4)融合规则和多源预训练模型的时间抽取方法。该方法利用一种基于时间范围短语标识符和时间短语数量的集成策略,将Stanford NER、spaCy NER、SuTime 等三种不同类型的时间标记器进行整合,解决现有方法抽取到的时间范围短语不完整的问题。并通过设计实验对集成策略进行了评估。结果显示,集成后模型对时间范围短语的敏感性和抽取效果得到了大幅提升,高于任意单一模型,证明了集成策略的有效性。 |
语种 | 中文 |
页码 | 156 |
源URL | [http://ir.igsnrr.ac.cn/handle/311030/199849] ![]() |
专题 | 地理科学与资源研究所_研究生部 |
推荐引用方式 GB/T 7714 | 李威蓉. 地理科技文献蕴含关键知识要素抽取方法研究[D]. 中国科学院地理科学与资源研究所. 中国科学院大学. 2023. |
入库方式: OAI收割
来源:地理科学与资源研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。