稀疏地理实体关系的关键词提取方法
文献类型:期刊论文
作者 | 余丽1; 陆锋1; 刘希亮1; 程诗奋1; 张雪英2 |
刊名 | 地球信息科学学报
![]() |
出版日期 | 2016 |
卷号 | 018期号:011页码:1465 |
ISSN号 | 1560-8999 |
英文摘要 | 网络文本蕴含地理实体关系抽取技术,需要高时效、强鲁棒的关键词提取方法。与监督学习方法相比,无监督学习方法能捕获文本的动态变化特征并发现新增的关系类型,因此备受关注。其中,基于频率的关键词提取方法获得广泛研究,然而,网络文本蕴含的地理实体关系分布稀疏,基于频率的方法难以直接应用于地理实体关系的关键词提取。为解决该问题,本文基于公开访问的网络资源,提出一种语境增强的关键词提取方法。首先,基于在线百科和开放的同义词词典,通过语境合并和语义融合创建增强的语境,以降低语境中词语的稀疏性。接着,Domain Frequency和Entropy频率统计方法从增强语境中自动构建一个大规模语料。然后,基于该语料选择词法特征并统计其权值,用于扩大语境中词语间的差异。最后,使用选择的词法特征度量增强语境中词语的重要性,将权值最大的词语作为描述地理实体关系的关键词,并基于大规模真实网络文本开展实验。实验结果表明:对于地理实体关系的关键词识别,本文方法的平均精度为85.5%,比Domain Frequency和Entropy方法分别提高41%和36%;对于新增关键词识别,本文方法的精度达到60.3%。语境增强的关键词提取方法能有效地处理地理实体关系分布的稀疏性,可服务于网络文本蕴含地理实体关系的抽取。 |
语种 | 英语 |
源URL | [http://ir.igsnrr.ac.cn/handle/311030/83226] ![]() |
专题 | 中国科学院地理科学与资源研究所 |
作者单位 | 1.中国科学院地理科学与资源研究所 2.南京师范大学 |
推荐引用方式 GB/T 7714 | 余丽,陆锋,刘希亮,等. 稀疏地理实体关系的关键词提取方法[J]. 地球信息科学学报,2016,018(011):1465. |
APA | 余丽,陆锋,刘希亮,程诗奋,&张雪英.(2016).稀疏地理实体关系的关键词提取方法.地球信息科学学报,018(011),1465. |
MLA | 余丽,et al."稀疏地理实体关系的关键词提取方法".地球信息科学学报 018.011(2016):1465. |
入库方式: OAI收割
来源:地理科学与资源研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。