中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
高维特征空间中文本聚类研究

文献类型:期刊论文

作者姜宁1; 宫秀军1; 史忠植2
刊名计算机工程与应用
出版日期2002
卷号38.0期号:010页码:63
关键词高维特征空间 文本聚类 信息量 平均准确率 数据挖掘 数据库
ISSN号1002-8331
英文摘要依据信息论的思想,从文档信息量变化的角度对文本聚类的过程进行了分析,指出信息量在聚类过程中呈现的规律性,进而提出一种基于信息量模型的聚类分析算法。通过对高维特征空间中影响聚类准确率因素的分析,发现特征之间复杂的语义联系和过高的维度是影响文本聚类准确率的重要因素。从削弱特征之间的语义联系入手,提出了一种特征聚类算法,其算法复杂度与处理的文档数量无关,提高了高维空间下聚类的速度和效果。两种算法的结合使得对大量高维文本数据直接聚类变得可行,实际的测试中获得了满意的效果。
语种英语
源URL[http://119.78.100.204/handle/2XEOYT63/34713]  
专题中国科学院计算技术研究所期刊论文_中文
作者单位1.中国科学技术大学北京研究生院
2.中国科学院计算技术研究所
推荐引用方式
GB/T 7714
姜宁,宫秀军,史忠植. 高维特征空间中文本聚类研究[J]. 计算机工程与应用,2002,38.0(010):63.
APA 姜宁,宫秀军,&史忠植.(2002).高维特征空间中文本聚类研究.计算机工程与应用,38.0(010),63.
MLA 姜宁,et al."高维特征空间中文本聚类研究".计算机工程与应用 38.0.010(2002):63.

入库方式: OAI收割

来源:计算技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。