中国科学院机构知识库网格系统: FPC：大规模网页的快速增量聚类

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

FPC：大规模网页的快速增量聚类

文献类型：期刊论文


作者	余钧 1; 郭岩 1; 张凯 1; 刘林 2; 刘悦1 ; 俞晓明1 ; 程学旗 1
刊名	中文信息学报
出版日期	2016
卷号	30.0 期号:002 页码:182
关键词	DOM树分层向量网页簇中心局部敏感哈希快速增量聚类
ISSN号	1003-0077
英文摘要	面向结构相似的网页聚类是网络数据挖掘的一项重要技术。传统的网页聚类没有给出网页簇中心的表示方式,在计算点簇间和簇簇间相似度时需要计算多个点对的相似度,这种聚类算法一般比使用簇中心的聚类算法慢,难以满足大规模快速增量聚类的需求。针对此问题,该文提出一种快速增量网页聚类方法FPC（Fast Page Clustering）。在该方法中,先提出一种新的计算网页相似度的方法,其计算速度是简单树匹配算法的500倍;给出一种网页簇中心的表示方式,在此基础上使用Kmeans算法的一个变种MKmeans（Merge-Kmeans）进行聚类,在聚类算法层面上提高效率;使用局部敏感哈希技术,从数量庞大的网页类集中快速找出最相似的类,在增量合并层面上提高效率。
语种	英语
源URL	[http://119.78.100.204/handle/2XEOYT63/34356]
专题	中国科学院计算技术研究所期刊论文_中文
作者单位	1.中国科学院计算技术研究所 2.中国信息安全测评中心
推荐引用方式 GB/T 7714	余钧,郭岩,张凯,等. FPC：大规模网页的快速增量聚类[J]. 中文信息学报,2016,30.0(002):182.
APA	余钧.,郭岩.,张凯.,刘林.,刘悦.,...&程学旗.(2016).FPC：大规模网页的快速增量聚类.中文信息学报,30.0(002),182.
MLA	余钧,et al."FPC：大规模网页的快速增量聚类".中文信息学报 30.0.002(2016):182.

入库方式： OAI收割

来源：计算技术研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。