中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于极值点分块的重复数据检测算法

文献类型:期刊论文

作者谢垂益 ; 卿斯汉
刊名信息网络安全
出版日期2013
期号8页码:10-12
关键词重复数据检测 基于内容分块 基于极值点分块 指纹 duplicated data detection content deifned chunking extremum deifned chunking ifngerprint
ISSN号1671-1122
其他题名A Duplicate Data Detection Algorithm based on Extremum Deifned Chunking
中文摘要重复数据检测技术能够大幅降低数据中心的存储量,节省网络带宽,减少建设和运维成本。为了克服基于内容分块(CDC)方法容易出现超长块的缺点,文章提出了基于极值点分块(EDC)的重复数据检测算法。EDC算法先计算出所有右边界在数据块上下限范围内的滑动窗口中数据的指纹,找出最后一个指纹极值,所对应的滑动窗口结束位置作为数据块的分界点,再计算该数据块的哈希值并判断是否重复块。实验结果表明,EDC算法的重复数据检测率、磁盘利用率分别是CDC算法的1.48倍和1.12倍,改进效果显著。 The duplicate data detection technology can significantly reduce the duplication of data in data centers, save network bandwidth, decrease the cost of construction and maintenance. A duplicate data detection algorithm based on Extremum Defined Chunking(EDC) is proposed to overcome the long segment problem of Content Deifned Chunking(CDC) method. The EDC algorithm ifrst calculates all ifngerprints of the sliding windows that their boundary are within the upper and lower limits of data blocks. The last extremum of all ifngerprints is found out, the corresponding end position of the sliding window become the cut-off point of data block. Then the hash value of the data block is calculated to determine whether it is duplicate block. The experimental results show that ECD algorithm, duplicated data detection rate, disk utilization rate is respectively 1.48 times, 1.12 times of CDC algorithm, the effect is signiifcantly notable.
语种中文
公开日期2014-12-16
源URL[http://ir.iscas.ac.cn/handle/311060/17006]  
专题软件研究所_软件所图书馆_期刊论文
推荐引用方式
GB/T 7714
谢垂益,卿斯汉. 基于极值点分块的重复数据检测算法[J]. 信息网络安全,2013(8):10-12.
APA 谢垂益,&卿斯汉.(2013).基于极值点分块的重复数据检测算法.信息网络安全(8),10-12.
MLA 谢垂益,et al."基于极值点分块的重复数据检测算法".信息网络安全 .8(2013):10-12.

入库方式: OAI收割

来源:软件研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。