中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基因表达数据的聚类算法研究

文献类型:学位论文

作者孙亮
学位类别博士
答辩日期2006-06-02
授予单位中国科学院软件研究所
授予地点软件研究所
关键词基因表达数据 聚类分析 基于密度的聚类 一致性检测 层次框架 牙殖酵母基因
中文摘要基因表达数据的爆炸性增长迫切要求自动、有效的数据分析工具。目前聚类分析已成为分析基因表达数据、获取生物学信息的有力工具。 为了更好的挖掘基因表达数据,近年来提出了大量基于传统聚类的改进算法和新型聚类算法。本文首先简单介绍了基因表达数据的获取和表示,然后介绍了基因表达数据聚类分析中常用的距离度量。系统地阐述了目前基因表达数据分析中的各种聚类算法,并根据聚类目标的不同将算法分为基于基因的聚类、基于样本的聚类和两路聚类。 根据基因表达数据的特点和基于密度的聚类算法的研究,本文提出了2种新型的基于密度的适用于基因表达数据的聚类算法。基于密度的聚类算法是处理基因表达数据的有效工具,但是传统的基于密度的算法,如DBSCAN,只能设定全局密度阈值而无法得到不同密度的聚类。本文提出的两种算法都克服了该缺陷,取得了较高精度的聚类结果。两种算法为DENGENE (DENsity-based Clustering using homoGENEity test)和DENCH (DENsity-based hierarCHical clustering)。 DENGENE算法通过定义一致性检测和引进峰点改进搜索方向,使得算法能够更好地处理基因表达数据。通过使用一致性检测有效提高了聚类结果的精确度,克服了DBSCAN在全局阈值下易于过合并的缺陷。通过定义峰点(peak point),也就是密度比其邻域内点都大的核心点,来改变聚类的生成方式。聚类扩展时从峰点出发,且每次扩展都只能沿密度最大的方向进行。 DENCH算法成功的结合了基于密度的聚类和层次聚类的优点,同时克服了两者的缺点。利用密度的概念较好的滤除了噪声,利用层次结构获得了数据分布的全局信息,因而能够有效的获得密度差异较大的聚类,克服了传统的基于密度的算法的缺陷。与传统的层次聚类相比,DENCH的层次结构中的基本单位是一组点而不是一个点,使得DENCH的健壮性显著提高。此外DENCH还提供了自动将层次聚类结构转化为直接划分的聚类结果。 为了评价算法的性能,选取了两组广为使用芽殖酵母基因表达数据集对算法来进行测试。实验结果表明,和基于模型的五种算法、CAST算法、K-均值算法等相比,DENGENE和DENCH在滤除噪声和聚类精度方面取得了显著的改善。 为帮助用户有效的分析基因表达数据,开发了基于Java/SWT的工具GeneXP。该工具集成了多种聚类算法,除DENGENE和DENCH外,还包括层次聚类算法、K-均值算法、自组织映射,模糊C-均值算法等。GeneXP还提供了常用的数据预处理功能和多种不同的距离度量功能。用户可使用可视化工具来直观的分析聚类结构,还可有效比较不同的聚类结果,以及集成不同聚类算法的处理结果。
语种中文
公开日期2011-03-17
页码99
源URL[http://ir.iscas.ac.cn/handle/311060/7480]  
专题软件研究所_中科院软件所_中科院软件所
推荐引用方式
GB/T 7714
孙亮. 基因表达数据的聚类算法研究[D]. 软件研究所. 中国科学院软件研究所. 2006.

入库方式: OAI收割

来源:软件研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。