中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
维文文本分类器研究

文献类型:学位论文

作者李艳姣
答辩日期2012-05
授予单位中国科学院研究生院
授予地点中国科学院新疆理化技术研究所
导师蒋同海
关键词维文 贝叶斯 支持向量机 参数寻优 加权
学位名称硕士
学位专业计算机应用技术
英文摘要

随着信息技术的发展,维文电子文档数目迅速增长,如何快速准确的从浩如烟海的电子文档中获得所需信息成为一个亟待解决的问题。文本分类是处理和组织维文电子文档的一项关键技术,维文文本分类系统的构建能够提高知识获取以及知识组织的效率。 本文简单介绍了文本分类系统的框架以及相关技术,并根据维吾尔语自身特点详细介绍了维文文本分类系统中关键技术的实现。同时朴素贝叶斯和支持向量机两个分类算法进行了深入研究,并提出相应的改进算法。 朴素贝叶斯分类器是一个简单有效的模式识别算法,在文本分类中得到了广泛的使用。但是在朴素贝叶斯分类中,条件属性对于决策分类的作用相同的假设在很多情况下并不成立。为提高朴素贝叶斯分类器的分类性能,考虑决策分类过程中条件属性的不同重要程度,提出了一种基于特征选择权重的贝叶斯分类算法。首先,将卡方值和文档频数的数值相结合来表示特征词的重要程度;然后,对该值进行处理进而获得每个特征词权重;最后,根据该权重建立加权贝叶斯分类器。在搜集到的维文语料库上的实验结果表明,该算法比朴素贝叶斯拥有更好的分类性能。 支持向量机是一种基于结构风险最小化原则的模式识别算法,是目前公认的最有效的文本分类算法之一。支持向量机在小样本、高维特征空间上也能够获得非常好的效果。由于维文文本分类没有较为统一和大规模的数据集,且维文特征空间很大,在维文文本分类中使用支持向量机是一个较好的选择。 支持向量机的训练过程较为复杂,时间和空间复杂度较高;同时支持向量机的参数较多,参数寻优成为训练过程中的瓶颈。本文基于序贯均匀设计方法提出一种新的参数寻优方法,以减少训练时间。首先,基于均匀设计表设计参数组合,获得最好分类效果的参数组合;然后,以最好的参数组合为中心,减少差距并设计第二批参数组合数据,进而通过交叉验证获得最好分类效果的参数组;最后,以该参数组合训练获得SVM分类器。实验表明该方法能够在保证分类效果的基础上,大幅减少训练时间。

源URL[http://ir.xjipc.cas.cn/handle/365002/4370]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
李艳姣. 维文文本分类器研究[D]. 中国科学院新疆理化技术研究所. 中国科学院研究生院. 2012.

入库方式: OAI收割

来源:新疆理化技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。