中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
加油站车辆车牌数据缺损值填充问题的研究

文献类型:学位论文

作者彭新亮
答辩日期2019-05-23
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师程力
关键词数据清洗 车辆加油数据 缺失数据填充 真值发现
学位名称硕士
学位专业计算机应用技术
英文摘要
随着物联网技术的发展,尤其是近些年网络传输能力飞速进步,越来越多的数据采集工作都已经交给了终端数据采集设备来完成。这些由不同站点的终端采集到的数据,由于各式各样的原因,往往伴随着大量的错误。以车辆加油为例,由于加油站的终端数据采集设备的车牌识别精度不足、环境影响、网络不稳定等不利因素影响,同一辆汽车在不同加油站终端数据系统中所采集到的车牌号码也有可能不同。并且,从这些设备汇总得到的数据中车牌号码存在大量丢失和错误(以下简称缺损)情况。某地区收集的车辆加油数据中,缺损数据约占总数据的20%以上。由于未采用有效的方法对此部分数据进行处理,这些不完整的原始数据将严重影响了后续的数据分析工作进行。本文以某地区的车辆加油记录为切入点。研究了这种典型的多源数据缺损值的填充问题。目前虽然已有许多算法可以解决连续型数值数据的缺损问题,并且在实验中取得了令人满意的效果,但是目前仍未有一种算适用于解决实际应用领域加油站数据中车辆号牌这种离散型数据的问题。正是因为这个原因,在分析现有缺失数据填充算法的基础上,本文提出了两种解决此问题的方法。基于规则的方法尝试使用历史加油数据构建记录表,当出现缺损值时则通过一定的认为定义规则来填充数据中的缺损值。该方法实现简单,对于错误位数较少的数据有很强的实用能力。基于真值发现的方法采用真值发现的思想解决短文本这类离散型分类数据的填充问题。通过改进一种经典的真值发现算法Truth-Finder,提出了一个进行缺损值填充的框架,该框架基于真值发现算法,考虑到离散数据相似度的计算方式,改进了原算法对数据值支持度的计算模型,使其更加适应于短文本数据的缺损值填充问题。本文的贡献点主要有以下几点:(1)针对真实物联网环境中出现的多源加油站车辆数据缺失情况,提出了两种在现实环境下可操作的处理方法。第一种基于规则的方式能够在特定的错误下高效的解决问题。第二种方法能够更大程度的解决其他的错误问题。(2)提出了一个完整的非数值型缺损数据填充框架,该框架依托于真值发现的思想,采用更加合适的相似度计算方式,能够有效的解决真实情况下的多源缺损数据的填充问题。 (3)通过在现有的真实加油站车辆数据集上的实验,证明的该方法的有效性和实用性。根据最终的实验结果,证明了本文提出的方法能部分解决类似加油站车辆加油数据这种离散型短文本数据的缺损值填充问题,大大提高了此数据的可用性。
源URL[http://ir.xjipc.cas.cn/handle/365002/5972]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
彭新亮. 加油站车辆车牌数据缺损值填充问题的研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2019.

入库方式: OAI收割

来源:新疆理化技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。