高维特征空间中文本聚类研究
文献类型:期刊论文
作者 | 姜宁1; 宫秀军1; 史忠植2 |
刊名 | 计算机工程与应用
![]() |
出版日期 | 2002 |
卷号 | 38.0期号:010页码:63 |
关键词 | 高维特征空间 文本聚类 信息量 平均准确率 数据挖掘 数据库 |
ISSN号 | 1002-8331 |
英文摘要 | 依据信息论的思想,从文档信息量变化的角度对文本聚类的过程进行了分析,指出信息量在聚类过程中呈现的规律性,进而提出一种基于信息量模型的聚类分析算法。通过对高维特征空间中影响聚类准确率因素的分析,发现特征之间复杂的语义联系和过高的维度是影响文本聚类准确率的重要因素。从削弱特征之间的语义联系入手,提出了一种特征聚类算法,其算法复杂度与处理的文档数量无关,提高了高维空间下聚类的速度和效果。两种算法的结合使得对大量高维文本数据直接聚类变得可行,实际的测试中获得了满意的效果。 |
语种 | 英语 |
源URL | [http://119.78.100.204/handle/2XEOYT63/34713] ![]() |
专题 | 中国科学院计算技术研究所期刊论文_中文 |
作者单位 | 1.中国科学技术大学北京研究生院 2.中国科学院计算技术研究所 |
推荐引用方式 GB/T 7714 | 姜宁,宫秀军,史忠植. 高维特征空间中文本聚类研究[J]. 计算机工程与应用,2002,38.0(010):63. |
APA | 姜宁,宫秀军,&史忠植.(2002).高维特征空间中文本聚类研究.计算机工程与应用,38.0(010),63. |
MLA | 姜宁,et al."高维特征空间中文本聚类研究".计算机工程与应用 38.0.010(2002):63. |
入库方式: OAI收割
来源:计算技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。