非均衡文本分类中基于特征分布的抽样技术研究
文献类型:学位论文
作者 | 张爱华 |
答辩日期 | 2010-05-27 |
文献子类 | 硕士 |
授予单位 | 中国科学院研究生院 |
授予地点 | 北京 |
导师 | 王斌 |
关键词 | 文本分类 非均衡 Over-sampling 基于特征的抽样技术 高斯混合模型 |
学位专业 | 其它专业 |
英文摘要 | 非均衡文本分类,即当各个类别的样本数量存在较大差异时的文本分类,在实际中应用广泛。传统的基于机器学习的分类算法注重提高整体分类效果,并不考虑类别的分布状况,在数据不均衡的情况下,样本无法准确反映整个空间的数据分布,分类器容易被大类淹没而忽略小类。此外,在许多实际问题中,小类的重要性往往高于大类,错分小类所带来的后果更加严重,因此非均衡语料的分类具有重要的研究和应用价值。 在处理非均衡文本分类问题的诸多方法中,基于数据的方法最灵活,应用也最广泛。该类策略通过抽样技术修改数据分布,将非均衡数据集“改造”为均衡数据集,从而使得现有分类算法能够有效地应用于非均衡语料分类,最终达到改进分类效果的目的。然而,传统的基于数据的方法存在过学习、丢失有用信息及增加训练分类器时间成本等问题,本文提出一系列策略,在一定程度上解决了上述问题。 本文借鉴SMOTE算法提出的通过构造新的小类样本做Over-Sampling的思路,独立地处理各个特征维度,实现了真正的基于特征的抽样。在对特征在小类中的分布建模的过程中,首先选择对各类分布模拟能力最强的高斯混合模型,用其对小类中每个特征的权值分布建模,然后再依据该模型抽取新的权值,并进一步组合为新的样本,加入小类训练集中。该方法完全基于特征抽样,能够有效地避免过学习现象。同时,由于对特征的建模及抽样过程严格遵守特征的原始分布,因此构造的新样本质量高。实验结果表明,该方法能够取得良好的效果,并且显著好于SMOTE算法。 由于基于高斯混合模型的方法较复杂,本文进一步希望构造简单模型以模拟特征分布并抽样,首先选择了基于离散分布的特征抽样方法,然而该方法并没有取得预期的实验效果。随后,本文通过分析基于特征的抽样方法的噪音生成情况,解释了基于离散分布的方法实验效果不好是由于模型本身缺少平滑,而并非基于特征的抽样方法的缺陷,也证明了充分训练的高斯混合模型能够非常好地模拟特征分布的论断。 在上述两种方法的基础上,本文最后提出了一种基于一维高斯模型的特征抽样方法,该方法的复杂程度介于前两类方法之间,通过将生成噪音数量与模型好坏相联系,设计了调节参数的方法,实验证明该方法取得了良好的效果,并且在小类训练样本缺乏的情况下,该方法的效果好于基于高斯混合模型的方法。 |
学科主题 | 人工智能 |
语种 | 中文 |
公开日期 | 2010-06-18 |
分类号 | TP3 |
源URL | [http://ictir.ict.ac.cn/handle/311040/316] ![]() |
专题 | 中国科学院计算技术研究所学位论文_2010硕士 |
推荐引用方式 GB/T 7714 | 张爱华. 非均衡文本分类中基于特征分布的抽样技术研究[D]. 北京. 中国科学院研究生院. 2010. |
入库方式: OAI收割
来源:计算技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。