中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于信息论与稀疏性的特征选择算法研究

文献类型:学位论文

作者彭涵阳
答辩日期2017-05
授予单位中国科学院研究生院
授予地点北京
导师刘成林 研究员 ; 勇研究员
关键词信息论 特征选择 稀疏 合页损失 非凸非光滑优化技术
英文摘要
随着计算机技术在社会各领域的深入渗透,数据正在加速迅猛累积。如何从这些海量数据中挖掘出潜在的有价值信息是现在面临的重要挑战。大规模数据的一个重要体现就是描述数据的特征维度极高,但是这些特征的很大一部分都是冗余或噪声特征。这些冗余和噪声不但将造成存储资源的大量浪费,而且还会降低挖掘学习算法的运行效率。更严重的是,它们还会将真正有价值的信息湮没从而恶化学习算法的性能。特征选择正是在这种情况下应运而生。特征选择就是尽量保持本质信息不受损或少受损的前提下,从纷繁芜杂的原始特征集合中选出一个较为精简的子集。
 
本文分别将会从信息论和稀疏诱导的角度,围绕从原始数据中祛除冗余噪声特征选择精简特征子集这一目标,开展一系列具体而深入的特征选择的研究工作。本文的主要贡献和创新如下:
 
1) 从信息论的基本概念出发,发现了 Fano 不等式之外另一种全新的 Bayes 错误率和关于特征与类别的互信息量的关系。为现有的由不同启发式准则发展出的基于信息论的算法建立了一个统一的理论框架。在此框架内,受 Occam 剃刀原理启发提出一种新的基于信息论的特征选择算法。该算法还可以通过嵌入一个插件用于辨别冗余和噪声特征以更好地进行特征选择。该算法的有效性在实验中得到了充分的验证。
 
2) 受稀疏表示和支持向量机的启发,提出了一种基于不等式约束的 l_{2,p} 范数 (0
 
3) 提出一种建立在 l_{2,r} 范数 (0
 
4) 提出了一种建立在新的合页损失和 l_{2,p} 范数 (0
源URL[http://ir.ia.ac.cn/handle/173211/14835]  
专题毕业生_博士学位论文
作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
彭涵阳. 基于信息论与稀疏性的特征选择算法研究[D]. 北京. 中国科学院研究生院. 2017.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。