中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于机器学习的开放地理空间元数据挖掘与分析

文献类型:学位论文

作者程全英
答辩日期2022-06
文献子类学术型学位
授予单位中国科学院大学
授予地点中国科学院地理科学与资源研究所
导师诸云强
关键词地理空间数据共享 多源语义信息 机器学习 主题抽取 自动分类
学位名称博士
学位专业地图学与地理信息系统
英文摘要地理空间数据是与地球参考空间位置有关的,表达与地理客观世界中各种实体和过程状态属性的数据。随着信息技术的发展,特别是互联网的发展和开放数据理念的推进,网络上已经存在大量的地理空间数据。这些不断增长的地理空间数据以不同的形式和标准发布到不同的地理空间数据网站中,导致了网络开放地理空间数据相互孤立、难以进行一站式搜索等一系列问题,由此给快速发现和获取这些开放地理空间数据带来了巨大的挑战。因此,如何精准挖掘和利用网络上开放共享的地理空间数据,是地理空间大数据时代下,地理空间数据共享的研究热点和必然要求,也是数据密集型第四科研范式的发展趋势。 地理空间元数据是描述地理空间数据的数据,是互联网中地理空间数据开放共享的主要形式,因此挖掘形成开放地理空间元数据目录是快速共享和利用开放地理空间数据的基础和前提。鉴于此,本文主要开展了以下四个方面的研究:首先,开展了多源语义信息和机器学习相结合的地理空间数据网站精准识别方法研究。基于本文方法,开展了开放地理空间数据网站及其包含的元数据的抽取与挖掘实践;其次,由于不同的元数据依据不同的分类标准进行元数据的分类,导致不同标准的元数据很难进行分类的整合以及基于统一分类的检索,为此,本文利用Bert模型开展了元数据的自动分类研究;再次,鉴于主题信息对于地理空间元数据分类和检索的重要意义,开展了地理空间元数据主题提取与分析研究;最后,对获取的地理空间元数据进行了位置信息的分析,探索了当前基于全球开放地理空间数据的研究中所包含的位置在不同区域范围的分布情况。本文主要研究成果如下: (1)基于多源语义信息和机器学习相结合的地理空间数据网站精准识别方法及元数据挖掘地理空间数据网站识别可以看作是一个二元网站分类问题,可以用目前流行的机器学习方法来解决。然而,使用关键词搜索获得的地理空间数据相关网站,会包含大量的噪音结果。如果直接使用上述搜索结果作为机器学习的样本数据,会极大地影响地理空间数据网站的分类精度。为此,本文提出了一种将多源语义信息和机器学习相结合的方法。首先,基于关键词集,使用搜索引擎在开放的网络环境中查找得到可能与地理空间数据相关的网站。然后,利用地理空间数据内容、形态、来源特征,以及网站的多源语义信息,通过综合相似度计算,过滤掉搜索结果中包含地理空间关键词但与地理空间数据不相关的网站。最后,将过滤后的地理空间数据网站作为机器学习的样本数据,对地理空间数据网站进行识别和评价。本文从原始搜索数据和多源语义过滤数据中提取训练集,利用机器学习分类算法(KNN、LR、RF和SVM)对两个数据集进行训练,并对相同的测试数据集进行预测。结果表明:(1)直接对关键词查询得到的原始网站进行分类时,四种分类算法中,RF和SVM的分类精度高于其他两种算法。(2)如果将多源语义信息过滤后的数据作为机器学习的样本数据,所有分类算法的精度都得到了很大的提高。在四种分类算法中,SVM算法的精度最高。(3)为了验证分类方法的鲁棒性,基于不同的初始样本数据,采用相同的方法进行实验。结果表明该方法具有鲁棒性和可扩展性。基于上述方法精准识别出开放地理空间数据网站后,根据不同网站的模态类型,进一步挖掘各数据网站上的开放地理空间元数据,最终形成地理空间元数据目录。 (2)基于Bert模型的开放地理空间元数据分类当前,在网络中共享的地理空间数据的数量会不断增加,如何从大量的元数据中快速找到研究人员所需的数据,则需要将地理空间元数据进行自动多分类,为此,基于第一部分的研究得到的地理空间元数据目录,提出基于Bert的地理空间元数据多分类方法,分析分类结果并利用宏精确率、宏召回率等评价方法进行评价,结果表明所提出的方法能够很好的将地理空间元数据自动对齐到其相应的类别。 (3)开放地理空间元数据的主题提取与分析在对地理空间元数据进行自动多分类时,地理空间元数据所包含的主题则显得尤为重要,因为更准确的主题才能让分类更精确。为此,提出了一种新的地理空间元数据主题发现方法,该方法结合了预训练模型Bert的词嵌入和球形Kmeans聚类算法(Bert Latent Semantic Analysis,Bert-LSA),并利用地理空间元数据和主题之间的相似性将数据分配给不同的主题。然后,通过使用两个主题一致性评价指标(即U-Mass和NMPI)来评价方法的主题一致性,并和现有方法PLSA(Probabilistic Latent Semantic Analysis)进行比较。结果表明,本文方法能够较好利用文本的语义信息,产生更连贯的主题,基于NPMI和U-Mass一致性评价指标显示Bert-LSA方法的整体性能优于传统的PLSA方法。
学科主题地图学与地理信息系统
语种中文
页码105
源URL[http://ir.igsnrr.ac.cn/handle/311030/186898]  
专题地理科学与资源研究所_研究生部
推荐引用方式
GB/T 7714
程全英. 基于机器学习的开放地理空间元数据挖掘与分析[D]. 中国科学院地理科学与资源研究所. 中国科学院大学. 2022.

入库方式: OAI收割

来源:地理科学与资源研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。