文本分类中特征选择和变换方法的研究
文献类型:学位论文
作者 | 汪明波 |
学位类别 | 工学硕士 |
答辩日期 | 2010-05-26 |
授予单位 | 中国科学院研究生院 |
授予地点 | 中国科学院自动化研究所 |
导师 | 刘成林 |
关键词 | 文本分类 特征选择 特征变换 监督的潜性语义索引 Text Categorization Feature Selection Feature Transformation Supervised Latent Semantic Indexing |
其他题名 | A Study on Feature Selection and Feature Transformation for Text Categorization |
学位专业 | 模式识别与智能系统 |
中文摘要 | 随着信息技术的发展,大量持续增长的电子文档可以在线或非在线地被获取和使用。如何组织和管理这些数据,并从中发现可以利用的知识逐渐成为人们关心的话题。文本分类正是一种以电子文档为处理对象,运用机器学习算法得到文档分类结果并发现有用知识的方法。本文针对文本数据特征数量巨大的问题,从特征选择和特征变换两个角度对文本进行数据降维,并通过分类结果对降维方法进行了评价。主要研究工作如下: 在特征选择方面,实现了文本分类中多种常用的单特征评价的特征选择方法,并给出了若干改进,在实验中提高了文本分类的性能。具体实现了卡方检验、相关系数、文档频率、信息增益、机会比率、Z检验、Fisher判别信息和互信息等方法。在计算词项与单个类别之间的评价函数之后,分别采用了“取最大值”和“加权平均”两种方式将它们合成为最终的词项评价函数。作为卡方检验方法的扩展,本文同时使用了传统的 Person's 卡方检验方法对文本数据进行了特征选择。在考虑词项取多值而非二值的情况下,重新采用信息增益方法对词项进行了衡量。针对传统的机会比率方法,我们还提出了改进的机会比率方法。实验结果表明,与信息增益和卡方检验相关的若干方法是效果最好的文本特征选择方法。p-卡方检验方法要略优于卡方检验方法。改进的机会比率方法的分类效果比传统方法有明显地提高。在效果和计算复杂性上,把词项看作一个取二值的随机变量要优于把它看作一个多值的变量。在评价函数的合成方面,通过“取最大值”方式对词项与单个类别的评价函数进行合成的效果要优于“加权平均”方式。 在特征变换方面,提出了一种基于迭代的监督潜性语义索引框架。该框架通过一种类别选择标准,在每一轮迭代中选择某个类别相关的词项-文档矩阵的主偏移向量作为变换向量。我们证明了已存在的一种监督潜性语义索引方法是该框架的一个实例。对于类别选择标准,我们提出了基于Fisher判别信息的选择方法、基于多维Fisher判别信息的选择方法、基于余弦相似度的选择方法和基于分类的选择方法。实验结果表明,基于Fisher判别信息的选择方法的分类效果最好。而基于分类的类别选择方法,在每一轮迭代中,不用事先对各个类别相关的词项-文档矩阵进行奇异值分解,因此大大降低了算法的时间复杂度,同时该方法也有较好的分类效果。与传统的主成分分析、线性判别分析、潜性语义索引和概率潜性语义索引等特征变换方法相比较,基于迭代的监督潜性语义索引方法在多个数据库上有着较高的稳定的分类效果。 |
英文摘要 | With the development of information technology, an increasing large amount of electrical documents are available, online or offline. How to organize and manage these data and extract useful knowledge from them has become a topic of interests. Text categorization is an effective machine learning method for deriving categories and mining useful information from electrical documents. To deal with the problem of large number of features (terms) in text categorization, this thesis investigates into dimensionality reduction techniques, including feature selection and feature transformation. The major works and results are as follows. First, we implemented a large variety of feature selection methods based on single feature relevance evualtion and proposed some improvements. Specifically, we implemented feature selection methods based on x2<上标!>-test, Correlation Coefficients, Document Frequency, Information Gain, Odds Ratio, Z-test, Fisher Disriminant Information and Mutual Information. On computing the relevance criterion of a term related to one category, we obtain the overall relevance from both the maximum and the average over categories. We propose to use the p-x2<上标!> test as an improvement of x2<上标!>-test. We also propose a modified information gain criterion by considering a term as a multi-valued random variable, and prpose an improved Odds Ratio method. Our experimental results of text categorization reveal that the methods related to x2<上标!>-test and information gain are among the best. p-x2<上标!> test is a little better than x2<上标!>-test. The improved Odds Ratio method is obviously better than its traditional couterpart. Considering a term as a binary variable rather than as a multi-valued one was shown to benefit the categorization performance. Regarding the fusion of category relevance, the maximum way was shown to outperform the average way. For feature transformation, we proposed an iterative framework for supervised latent semantic indexing (SLSI). At every iteration, the framework uses a class selection criterion to choose the main bias vector of one class-specific term-document matrix as an transformation vector. We show that a previous iterative SLSI algorithm, called as DSLSI, is an instance of the proposed framework. We propose some variations of SLSI algorithm depending on the class selection criterion: Fisher Disciminant oriented selection (FSLSI), Multi-dimensional Fi... |
语种 | 中文 |
公开日期 | 2015-09-08 |
其他标识符 | 200728014628029 |
源URL | [http://ir.ia.ac.cn/handle/173211/7527] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 汪明波. 文本分类中特征选择和变换方法的研究[D]. 中国科学院自动化研究所. 中国科学院研究生院. 2010. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。