基于神经网络的文本分类系统NNTCS的设计和实现
文献类型:学位论文
作者 | 刘钢 |
学位类别 | 博士 |
答辩日期 | 2003 |
授予单位 | 中国科学院软件研究所 |
授予地点 | 中国科学院软件研究所 |
关键词 | 文本分类 神经网络 特征提取 潜在语义索引 遗传算法 |
学位专业 | 计算机应用技术 |
中文摘要 | 文本分类是文本挖掘的基础与核心,是近年来数据挖掘和网络挖掘的一个研究热点,在传统的情报检索、网站索引体系结构的建立和eb信息检索等方面占有重要地位。本文首先对当前文本分类领域几个关键问题的常用解决方法进行了研究,同时阐述了典型文本分类系统的核心技术和系统结构,对文本分类的应用范围进行了描述。然后着重介绍了一个基于神经网络的文本自动分类系统NNTCS,重点阐述了特征提取、空间降维、层次分类和分类器训练等技术的实现方法。在NNTCS中,第一步是对中文文档进行汉语分词,从文档中抽出特征词,并且统计各特征词的词频。系统使用神经网络作为分类器,特征词的词频组成原始特征向量,和神经网络输入层的神经元一一对应。在文本训练的时候,利用标记好的训练文档集进行网络训练,误差反馈算法对网络进行权值调整,得到固定的权值作为分类知识存储。而在文本分类的时候,输入待分类文档的特征向量,运行固定权值的网络,得到的输出值与闲值比较确定类别。系统中引入了信息检索中的常用技术—潜在语义索引,把原始向量空间转换到抽象的k维语义空间,实现原始向量空间的降维,提高网络训练速度和性能。神经网络在一般的模式识别中很常用,但是在文本分类中较少采用,主要原因是向量空间太庞大,网络性能受限制,而引入潜在语义索引对空间降维可以避免这种缺陷,两者相得益彰。训练过程中结合遗传算法,优化神经网络的初始权值。遗传算法有全局搜索的特点,可以避免神经网络局部收敛的问题,充分发挥遗传算法和神经网络各自的仁亡势。最后对NNTCS进行了开放性测试,实验表明NNTCS对文本分类具有较高的平均查全率和平均精度。 |
语种 | 中文 |
公开日期 | 2011-03-17 |
页码 | 73 |
源URL | [http://ir.iscas.ac.cn/handle/311060/7218] ![]() |
专题 | 软件研究所_中科院软件所_中科院软件所 |
推荐引用方式 GB/T 7714 | 刘钢. 基于神经网络的文本分类系统NNTCS的设计和实现[D]. 中国科学院软件研究所. 中国科学院软件研究所. 2003. |
入库方式: OAI收割
来源:软件研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。