中国科学院机构知识库网格系统: 基于去中心化数据的搜索方法研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于去中心化数据的搜索方法研究

文献类型：学位论文


作者	石秋娥
答辩日期	2021-05-25
授予单位	中国科学院大学
授予地点	中国科学院新疆理化技术研究所
导师	周喜
关键词	去中心化星际文件系统分布式哈希表数据搜索缓存
学位名称	硕士
学位专业	计算机技术
英文摘要	近年来，随着网络信息技术和数据产业的蓬勃发展，集中式的数据存储方式早已不能满足大数据环境下海量数据的存储需求，新兴的去中心化存储系统为人们提供了一种新的存储模型。去中心化存储系统能够解决海量数据的存储问题，降低数据的存储成本，将成为未来的数据存储趋势。但是去中心化存储系统仅提供一种精确的数据搜索方式。研究去中心化存储系统的数据搜索方法有利于去中心化数据的共享与发现，扩大其应用场景，推动去中心化存储的发展。现有的搜索方法为数据建立集中式索引或DHT 索引。对海量数据建立集中式索引，查询效率低，且存在单点故障和安全性问题。将索引分散存储在DHT网络中可以解决上述问题。然而，目前的方法仅实现关键词查询功能，只能精确搜索，无法搜索到高度相似的数据。且未考虑查询语句的长短，直接将查询语句分词后，对每个关键词分别查询，会增加网络的通讯路由，加重网络的负担。为了加快数据搜索过程，使用的缓存技术也使网络存储了大量不必要的冗余数据。针对这些问题，本文使用混合索引的技术方案来搜索数据，并对缓存存储机制进行了改进。本文主要研究内容如下：基于DHT 的高效混合索引方法。为文档建立句子和关键词索引，并使用DHT网络存储。句子索引存放时，考虑了句子内容的相似性，使得原内容相似的句子索引能够映射到网络的相邻节点。对长查询语句实现邻近范围的句子搜索，减少网络路由。对短查询语句提供精确匹配关键词的查询结果。实验表明，本文建立的混合索引显著减少了长查询语句的平均网络路由，加快了长查询的搜索过程。搜索查询过程的研究与改进。本文进一步研究了查询结果的缓存机制，针对目前缓存造成大量冗余数据的问题，对缓存存储机制进行了改进。根据节点与提供结果的节点之间的距离，决定是否缓存数据，充分利用缓存空间。同时，使用过滤器加快搜索查找过程。改进缓存存储机制后，相对传统缓存机制，网络中缓存结果减少了10.99%。实验证明了本文对缓存存储机制的改进的有效性，可提高数据搜索的整体性能。在基于联盟链的文件共享系统中，为了搜索文件，对文件共享权限为公开及受保护的文件，使用本文所提方法建立去中心化混合索引及改进的缓存机制，可有效共享文件、发现文件。
页码	57
源URL	[http://ir.xjipc.cas.cn/handle/365002/7895]
专题	新疆理化技术研究所_多语种信息技术研究室
推荐引用方式 GB/T 7714	石秋娥. 基于去中心化数据的搜索方法研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2021.

入库方式： OAI收割

来源：新疆理化技术研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。