一种互联网文本蕴含地理实体关系的抽取方法
文献类型:专利
作者 | 陆锋; 余丽; 张恒才; 彭澎; 仇培元; 牟乃夏 |
发表日期 | 2017-09-19 |
专利号 | CN201610135332.X |
著作权人 | 中国科学院地理科学与资源研究所. |
国家 | 中国 |
英文摘要 | 本发明公开了一种互联网文本蕴含地理实体关系的抽取方法,包括以下步骤:数据预处理、文档向量化、权值计算、关键词提取、关系元组构建;输入包含地理实体的网络文本,经过数据预处理抽取地理实体间的空间关系或语义关系,得到网页纯文本和候选关键词;采用词语级别的向量空间模型对文本进行向量化,建立word‑context矩阵;设计了新型的权值计算方法对地理实体进行权值计算;从语境向量中选择权值最大的词语作为关键词,构建关系元组,最后完成地理实体抽取。本发明提供了基于语义的检索方式,改变了传统依赖关键词的搜索技术;在缺乏大规模标注语料和地理知识库的前提下,能快速抽取地理关系描述词,提高运行效率,大大的降低人工成本。 |
公开日期 | 2017-09-19 |
申请日期 | 2016-03-10 |
源URL | [http://ir.igsnrr.ac.cn/handle/311030/192156] ![]() |
专题 | 资源与环境信息系统国家重点实验室_专利、软件、成果转化 |
作者单位 | 中国科学院地理科学与资源研究所. |
推荐引用方式 GB/T 7714 | 陆锋,余丽,张恒才,等. 一种互联网文本蕴含地理实体关系的抽取方法. CN201610135332.X. 2017-09-19. |
入库方式: OAI收割
来源:地理科学与资源研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。