FPC:大规模网页的快速增量聚类
文献类型:期刊论文
作者 | 余钧1; 郭岩1; 张凯1; 刘林2; 刘悦1![]() ![]() |
刊名 | 中文信息学报
![]() |
出版日期 | 2016 |
卷号 | 30.0期号:002页码:182 |
关键词 | DOM树分层向量 网页簇中心 局部敏感哈希 快速增量聚类 |
ISSN号 | 1003-0077 |
英文摘要 | 面向结构相似的网页聚类是网络数据挖掘的一项重要技术。传统的网页聚类没有给出网页簇中心的表示方式,在计算点簇间和簇簇间相似度时需要计算多个点对的相似度,这种聚类算法一般比使用簇中心的聚类算法慢,难以满足大规模快速增量聚类的需求。针对此问题,该文提出一种快速增量网页聚类方法FPC(Fast Page Clustering)。在该方法中,先提出一种新的计算网页相似度的方法,其计算速度是简单树匹配算法的500倍;给出一种网页簇中心的表示方式,在此基础上使用Kmeans算法的一个变种MKmeans(Merge-Kmeans)进行聚类,在聚类算法层面上提高效率;使用局部敏感哈希技术,从数量庞大的网页类集中快速找出最相似的类,在增量合并层面上提高效率。 |
语种 | 英语 |
源URL | [http://119.78.100.204/handle/2XEOYT63/34356] ![]() |
专题 | 中国科学院计算技术研究所期刊论文_中文 |
作者单位 | 1.中国科学院计算技术研究所 2.中国信息安全测评中心 |
推荐引用方式 GB/T 7714 | 余钧,郭岩,张凯,等. FPC:大规模网页的快速增量聚类[J]. 中文信息学报,2016,30.0(002):182. |
APA | 余钧.,郭岩.,张凯.,刘林.,刘悦.,...&程学旗.(2016).FPC:大规模网页的快速增量聚类.中文信息学报,30.0(002),182. |
MLA | 余钧,et al."FPC:大规模网页的快速增量聚类".中文信息学报 30.0.002(2016):182. |
入库方式: OAI收割
来源:计算技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。