关键属性组的相似重复记录检测方法研究
文献类型:期刊论文
作者 | 宋国兴; 周喜![]() ![]() |
刊名 | 科学技术与工程
![]() |
出版日期 | 2017 |
卷号 | 17期号:19页码:65-71 |
关键词 | 统一互信息 关键属性组 降低维度 相似重复记录 噪声属性 |
英文摘要 | 对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪声属性,降低属性维度。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。 |
源URL | [http://ir.xjipc.cas.cn/handle/365002/5015] ![]() |
专题 | 新疆理化技术研究所_多语种信息技术研究室 |
作者单位 | 1.中国科学院新疆理化技术研究所 2.中国科学院大学 3.新疆民族语音语言信息处理实验室 |
推荐引用方式 GB/T 7714 | 宋国兴,周喜,马博,等. 关键属性组的相似重复记录检测方法研究[J]. 科学技术与工程,2017,17(19):65-71. |
APA | 宋国兴,周喜,马博,&赵凡.(2017).关键属性组的相似重复记录检测方法研究.科学技术与工程,17(19),65-71. |
MLA | 宋国兴,et al."关键属性组的相似重复记录检测方法研究".科学技术与工程 17.19(2017):65-71. |
入库方式: OAI收割
来源:新疆理化技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。