基因表达数据的聚类算法研究
文献类型:学位论文
作者 | 孙亮 |
学位类别 | 博士 |
答辩日期 | 2006-06-02 |
授予单位 | 中国科学院软件研究所 |
授予地点 | 软件研究所 |
关键词 | 基因表达数据 聚类分析 基于密度的聚类 一致性检测 层次框架 牙殖酵母基因 |
中文摘要 | 基因表达数据的爆炸性增长迫切要求自动、有效的数据分析工具。目前聚类分析已成为分析基因表达数据、获取生物学信息的有力工具。 为了更好的挖掘基因表达数据,近年来提出了大量基于传统聚类的改进算法和新型聚类算法。本文首先简单介绍了基因表达数据的获取和表示,然后介绍了基因表达数据聚类分析中常用的距离度量。系统地阐述了目前基因表达数据分析中的各种聚类算法,并根据聚类目标的不同将算法分为基于基因的聚类、基于样本的聚类和两路聚类。 根据基因表达数据的特点和基于密度的聚类算法的研究,本文提出了2种新型的基于密度的适用于基因表达数据的聚类算法。基于密度的聚类算法是处理基因表达数据的有效工具,但是传统的基于密度的算法,如DBSCAN,只能设定全局密度阈值而无法得到不同密度的聚类。本文提出的两种算法都克服了该缺陷,取得了较高精度的聚类结果。两种算法为DENGENE (DENsity-based Clustering using homoGENEity test)和DENCH (DENsity-based hierarCHical clustering)。 DENGENE算法通过定义一致性检测和引进峰点改进搜索方向,使得算法能够更好地处理基因表达数据。通过使用一致性检测有效提高了聚类结果的精确度,克服了DBSCAN在全局阈值下易于过合并的缺陷。通过定义峰点(peak point),也就是密度比其邻域内点都大的核心点,来改变聚类的生成方式。聚类扩展时从峰点出发,且每次扩展都只能沿密度最大的方向进行。 DENCH算法成功的结合了基于密度的聚类和层次聚类的优点,同时克服了两者的缺点。利用密度的概念较好的滤除了噪声,利用层次结构获得了数据分布的全局信息,因而能够有效的获得密度差异较大的聚类,克服了传统的基于密度的算法的缺陷。与传统的层次聚类相比,DENCH的层次结构中的基本单位是一组点而不是一个点,使得DENCH的健壮性显著提高。此外DENCH还提供了自动将层次聚类结构转化为直接划分的聚类结果。 为了评价算法的性能,选取了两组广为使用芽殖酵母基因表达数据集对算法来进行测试。实验结果表明,和基于模型的五种算法、CAST算法、K-均值算法等相比,DENGENE和DENCH在滤除噪声和聚类精度方面取得了显著的改善。 为帮助用户有效的分析基因表达数据,开发了基于Java/SWT的工具GeneXP。该工具集成了多种聚类算法,除DENGENE和DENCH外,还包括层次聚类算法、K-均值算法、自组织映射,模糊C-均值算法等。GeneXP还提供了常用的数据预处理功能和多种不同的距离度量功能。用户可使用可视化工具来直观的分析聚类结构,还可有效比较不同的聚类结果,以及集成不同聚类算法的处理结果。 |
语种 | 中文 |
公开日期 | 2011-03-17 |
页码 | 99 |
源URL | [http://ir.iscas.ac.cn/handle/311060/7480] ![]() |
专题 | 软件研究所_中科院软件所_中科院软件所 |
推荐引用方式 GB/T 7714 | 孙亮. 基因表达数据的聚类算法研究[D]. 软件研究所. 中国科学院软件研究所. 2006. |
入库方式: OAI收割
来源:软件研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。