基于Hadoop平台对交易记录的数据分析系统的设计与实现
文献类型:学位论文
作者 | 韩岩 |
答辩日期 | 2015-05-25 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院新疆理化技术研究所 |
导师 | 李晓 |
关键词 | 云计算 Mysql Hadoop Mongodb Mahout K-means 海量数据 |
学位名称 | 硕士 |
学位专业 | 计算机应用技术 |
英文摘要 | 随着大数据时代的到来,人们的生活方式和消费习惯也发生重大变化,网上购物以其方便与廉价的特点受到越来越多人的青睐。越来越多的商家不仅有自己的实体店而且开设了电子商务网站。随着电子商务网站巨大的访问量和庞大的交易额,电子商务网站将产生海量的交易记录需要存储与分析,而传统关系数据库对大数据的处理能力正面临严峻的挑战。为了解决所出现的挑战,云计算技术在如今数据急剧膨胀的时代应运而生。Hadoop 是一个对大数据进行分布式处理的云计算框架具体实现,它可以使用户在不了解分布式系统底层细节的情况下,开发分布式程序对大数据进行处理。Hadoop 现在已经成为企业界和学术界研究的热点。本文主要研究内容是基于Hadoop 平台的海量交易记录分析系统中的数据存储与算法优化。首先,对Hadoop 及其相关技术的研究,主要包括Hadoop 系统中的HDFS 和MapReduce 的研究,以及Mahout 中算法的并行化实现。其次,关系数据库、非关系型数据库与Hadoop 存储的效率对比,为存储不同类型海量数据提出一种解决方案。然后,将基于Mahout 优化聚类中心的K-means 算法与Mahout 中的K-means 算法对比,缩短了聚类的时间,提高了聚类的效率。最后,对基于Hadoop 平台的海量交易记录分析系统进行了设计和实现。这个交易记录是用户使用手机刷卡所产生的消费信息。根据用户需求实现其功能,例如:分析优质客户、用户销售量统计与分析、地域性分析与推荐等。本文将新的存储方案与改进的算法应用于该系统中,并验证了系统的可行性和正确性。 |
公开日期 | 2015-06-15 |
源URL | [http://ir.xjipc.cas.cn/handle/365002/4229] ![]() |
专题 | 新疆理化技术研究所_多语种信息技术研究室 |
推荐引用方式 GB/T 7714 | 韩岩. 基于Hadoop平台对交易记录的数据分析系统的设计与实现[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2015. |
入库方式: OAI收割
来源:新疆理化技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。