文本分类中特征选择的约束研究
文献类型:期刊论文
作者 | 张 森; 李锦涛; 徐 燕; 王 斌; 孙春明 |
刊名 | 计算机研究与发展
![]() |
出版日期 | 2008 |
期号 | 第4期页码:596~602页 |
关键词 | 特征选择 文本分类 信息检索 信息增益 互信息 |
英文摘要 | 特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法,为此提出了一种定性地评估特征选择函数性能的方法,并且定义了一组与分类信息相关的基本的约束条件.分析和实验表明,IG完全满足该约束条件,DF不能完全满足,MI和该约束相冲突,即一个特征选择算法的性能在实验中的表现与它是否满足这些约束条件是紧密相关的. |
语种 | 中文 |
公开日期 | 2010-10-12 |
源URL | [http://ictir.ict.ac.cn/handle/311040/573] ![]() |
专题 | 中国科学院计算技术研究所期刊论文_2008年中文 |
推荐引用方式 GB/T 7714 | 张 森,李锦涛,徐 燕,等. 文本分类中特征选择的约束研究[J]. 计算机研究与发展,2008(第4期):596~602页. |
APA | 张 森,李锦涛,徐 燕,王 斌,&孙春明.(2008).文本分类中特征选择的约束研究.计算机研究与发展(第4期),596~602页. |
MLA | 张 森,et al."文本分类中特征选择的约束研究".计算机研究与发展 .第4期(2008):596~602页. |
入库方式: OAI收割
来源:计算技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。