基于动态可配置规则的数据清洗方法
文献类型:期刊论文
作者 | 朱会娟; 蒋同海![]() ![]() ![]() ![]() |
刊名 | 计算机应用
![]() |
出版日期 | 2017 |
卷号 | 37期号:4页码:1014-1020 |
关键词 | 大数据 数据质量 数据清洗 动态可配置规则 数据预处理 |
ISSN号 | 1001-9081 |
DOI | 10.11772/j.issn.1001-9081.2017.04.1014 |
英文摘要 | 针对传统数据清洗方法通过硬编码方法来实现业务逻辑而导致系统的可重用性、可扩展性与灵活性较差等问题,提出了一种基于动态可配置规则的数据清洗方法——DRDCM。该方法支持多种类型规则间的复杂逻辑运算,并支持多种脏数据修复行为,集数据检测、数据修复与数据转换于一体,具有跨领域、可重用、可配置、可扩展等特点。首先,对DRDCM方法中的数据检测和数据修复的概念、实现步骤以及实现算法进行描述;其次,阐述了DRDCM方法中支持的多种规则类型以及规则配置;最后,对DRDCM方法进行实现,并通过实际项目数据集验证了该实现系统在脏数据修复中,丢弃修复行为具有很高的准确率,尤其是对需遵守法定编码规则的属性(例如身份证号码)处理时其准确率可达100%。实验结果表明,DRDCM实现系统可以将动态可配置规则无缝集成于多个数据源和多种不同应用领域且该系统的性能并不会随着规则条数增加而极速降低,这也进一步验证了DRDCM方法在真实环境中的切实可行性。 |
CSCD记录号 | CSCD:5960194 |
源URL | [http://ir.xjipc.cas.cn/handle/365002/4755] ![]() |
专题 | 新疆理化技术研究所_多语种信息技术研究室 |
作者单位 | 中国科学院新疆理化技术研究所多语种信息技术研究室;中国科学院大学计算机与控制学院;新疆民族语音语言信息处理重点实验室 |
推荐引用方式 GB/T 7714 | 朱会娟,蒋同海,周喜,等. 基于动态可配置规则的数据清洗方法[J]. 计算机应用,2017,37(4):1014-1020. |
APA | 朱会娟,蒋同海,周喜,程力,赵凡,&马博.(2017).基于动态可配置规则的数据清洗方法.计算机应用,37(4),1014-1020. |
MLA | 朱会娟,et al."基于动态可配置规则的数据清洗方法".计算机应用 37.4(2017):1014-1020. |
入库方式: OAI收割
来源:新疆理化技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。