中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
一种互联网文本蕴含地理实体关系的抽取方法

文献类型:专利

作者陆锋; 余丽; 张恒才; 彭澎; 仇培元; 牟乃夏
发表日期2017-09-19
专利号CN201610135332.X
著作权人中国科学院地理科学与资源研究所.
国家中国
英文摘要本发明公开了一种互联网文本蕴含地理实体关系的抽取方法,包括以下步骤:数据预处理、文档向量化、权值计算、关键词提取、关系元组构建;输入包含地理实体的网络文本,经过数据预处理抽取地理实体间的空间关系或语义关系,得到网页纯文本和候选关键词;采用词语级别的向量空间模型对文本进行向量化,建立word‑context矩阵;设计了新型的权值计算方法对地理实体进行权值计算;从语境向量中选择权值最大的词语作为关键词,构建关系元组,最后完成地理实体抽取。本发明提供了基于语义的检索方式,改变了传统依赖关键词的搜索技术;在缺乏大规模标注语料和地理知识库的前提下,能快速抽取地理关系描述词,提高运行效率,大大的降低人工成本。
公开日期2017-09-19
申请日期2016-03-10
源URL[http://ir.igsnrr.ac.cn/handle/311030/192156]  
专题资源与环境信息系统国家重点实验室_专利、软件、成果转化
作者单位中国科学院地理科学与资源研究所.
推荐引用方式
GB/T 7714
陆锋,余丽,张恒才,等. 一种互联网文本蕴含地理实体关系的抽取方法. CN201610135332.X. 2017-09-19.

入库方式: OAI收割

来源:地理科学与资源研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。