中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
混合数据聚类算法研究及在spark下的应用

文献类型:学位论文

作者姜智涵1,2
答辩日期2019-05-17
授予单位中国科学院沈阳自动化研究所
授予地点沈阳
导师朱军
关键词混合属性数据 谱聚类 软子空间聚类 Spark
学位名称硕士
学位专业控制工程
其他题名Research on Mixed Data Clustering Algorithms and Application in Spark
英文摘要聚类技术是数据挖掘领域的一项关键技术,包括生物学、经济学和医学在内的各个领域都有很多应用。它的应用包括数据挖掘、文档检索、图像分割和模式识别。本文主要围绕混合属性数据聚类所面临的一些问题展开研究探讨。主要分为三个方面:(1)针对目前大多数的聚类算法只能对单一属性的数据进行聚类,不能解决混合属性数据的聚类问题。以及目前大多数混合属性数据聚类算法对初始化敏感、不能处理任意形状的数据的问题。提出了一种基于信息熵的混合属性数据谱聚类算法(EBSCMD),用于处理混合类型数据。首先,提出一种新的相似性计算方式,利用谱聚类算法中的数值型数据构成的高斯核函数矩阵和新的基于信息熵加权处理的分类型数据构成的影响因子矩阵相结合代替了传统的相似度矩阵,新的相似度矩阵避免了两种属性数据之间的转化和参数调整。然后,把新的相似度矩阵运用到谱聚类算法中以便于处理任意形状的数据,最终得出聚类结果。通过UCI机器学习库的数据集上的实验表明,该算法能有效地处理混合属性数据的聚类问题,且具有较高的稳定性以及良好的鲁棒性。(2)针对传统软子空间聚类算法仅适用于连续属性,不适用于混合属性数据,以及目前大多数混合属性数据聚类算法没有考虑不同属性对不同的簇有不同贡献的问题。研究了适用于处理混合类型数据的软子空间聚类算法,提出了一种新的基于混合属性数据的加权软子空间聚类算法(WSSCMD)。首先,提出了一种新的数值属性和分类属性的统一加权方案,对每个维度属性到聚类的贡献度进行量化,产生一种新的相似度度量方式,新的相似度度量方式避免了对属性贡献度评估不足和参数调整的问题。然后,把新的相似度度量方式运用到模糊聚类算法中以便于更好地处理混合属性数据聚类的问题,最终得出聚类结果。通过不同的数据集上的实验表明,该算法在处理混合类型数据方面的优越性。(3)针对传统单机版混合属性数据聚类算法运算效低,不适用于大规模的混合类型数据聚类的问题。研究了基于Spark的并行化混合属性数据谱聚类算法,把混合属性数据谱聚类算法应用于Spark集群上,并提出一种新的并行化相似度矩阵计算方式。通过在混合属性数据集上的实验,验证了基于Spark聚类算法运算的高效性。
语种中文
产权排序1
页码75页
源URL[http://ir.sia.cn/handle/173321/25205]  
专题沈阳自动化研究所_数字工厂研究室
作者单位1.中国科学院大学
2.中国科学院沈阳自动化研究所
推荐引用方式
GB/T 7714
姜智涵. 混合数据聚类算法研究及在spark下的应用[D]. 沈阳. 中国科学院沈阳自动化研究所. 2019.

入库方式: OAI收割

来源:沈阳自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。