中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
外显子表达谱分析与蛋白质结构预测中的统计模型

文献类型:学位论文

作者袁雄鹰
答辩日期2010-06-01
文献子类硕士
授予单位中国科学院研究生院
授予地点北京
导师卜东波
关键词机器学习 统计模型 生物信息 外显子表达谱 蛋白质结构预测
学位专业其它专业
英文摘要由高通量生物学实验平台所产生的海量数据对计算技术提出了重大的挑战---高噪音、生物系统本质上的复杂性以及现阶段对生命机制认识的缺乏极大地制约了传统计算技术在生物数据分析中的应用。上述挑战很好地体现了``知识”和``数据”之间的关系:一方面,发现新的生物学知识是海量数据分析的最终目标与评价标准;而另一方面,一个成功的海量数据分析方法依赖于充分利用现有的生物学知识。 机器学习技术是应对上述挑战的有力武器。机器学习具有建立在统计学基础之上的严谨理论框架,并综合使用了统计建模、统计推断与计算机算法技术。因此机器学习技术能够在内在机理不完全清楚的情况下,从海量的生物数据中提取出新的生物学知识;同时,通过建模、设置先验分布等手段,可以很自然地反映和利用已知的生物学知识。 本文的主要内容就是针对外显子表达谱分析与蛋白质结构预测两个方面的典型问题(基因亚型的表达推断、外显子表达谱分类、残基溶剂可及性预测和蛋白质结构预测)开发新的机器学习模型,提出相应的推断方法,并挖掘出新的生物学知识: ---外显子表达谱技术是使用新开发的外显子芯片和RNA测序平台来测量每个外显子的表达量(称为外显子表达谱)。基于外显子表达谱数据,我们关注于两个进一步的问题:1)如何从外显子表达谱推断基因亚型的表达量;2)如何用外显子表达谱做疾病诊断。为了从外显子数据出发推断已知亚型的相对表达水平,我们开发了一个基于Dirichlet分布的统计模型。我们的模型充分利用了现有序列数据库中有关基因亚型的序列信息,在测试中表现出比现有方法更高的精度和鲁棒性。为了利用表达谱作疾病分类,我们开发了一个新的SVM变种--Lex-SVM,通过一个特殊的惩罚函数将我们关于外显子表达相关性的先验知识转化成分类器中的约束。在GEO中常见的小样本数据上的测试结果表明,Lex-SVM的分类精度要高于那些没有考虑外显子表达谱的特殊性的经典方法。 ---了解蛋白质的空间结构是认识蛋白质功能的基础。由于目前蛋白质结构测定技术(X射线晶体衍射、核磁共振和冷冻电镜)实验周期长、代价高,计算方法成为实验方法的一个有效弥补。经过几十年的积累,蛋白质结构数据库PDB中已收纳了64,098个蛋白质的高精度结构(截止到2010年3月)。我们的目标是从这些已有的结构数据中挖掘出蛋白质折叠的知识,并利用这种知识来预测未知蛋白的结构。作为蛋白质结构预测的前导性工作,我们开发了一个条件随机场模型从序列直接预测各残基在蛋白质结构中的包埋情况。区别于现有方法,我们的方法是一个``全局''方法,即我们将一个蛋白质中的所有残基看作一个整体,而不是仅仅关注以待预测残基为中心的一个``局部''窗口。在推断过程中,我们通过最大化整体似然的方法来同时预测所有残基的包埋程度,这样相邻残基的包埋程度间的相互影响也通过双体项特征函数显式地表示在模型中。测试结果显示我们的方法优于主流的方法。进一步地,为了预测蛋白质结构,我们提出了一个新的穿线法(threading)--谱条件随机场,以产生一个目标蛋白与模板蛋白的联配。谱条件随机场可以看成是谱隐马尔可夫模型(profile HMM)的推广,它拥有profile HMM的所有优点,并更方便加入其他特征函数和刻画远程相互作用。
学科主题计算机应用
语种中文
公开日期2010-06-09
源URL[http://ictir.ict.ac.cn/handle/311040/275]  
专题中国科学院计算技术研究所学位论文_2010硕士
推荐引用方式
GB/T 7714
袁雄鹰. 外显子表达谱分析与蛋白质结构预测中的统计模型[D]. 北京. 中国科学院研究生院. 2010.

入库方式: OAI收割

来源:计算技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。