Web信息分发技术及效率研究
文献类型:学位论文
作者 | 黄涛 |
学位类别 | 博士 |
答辩日期 | 2000 |
授予单位 | 中国科学院软件研究所 |
授予地点 | 中国科学院软件研究所 |
关键词 | Web信息资源 推测机制 PUSH方法 引用局域性 |
学位专业 | 计算机应用技术 |
中文摘要 | 自从1990年12月世界上第一个Web软件在Steven Job的NeXT计算机系统上诞生以来,Web技术及其应用在世界范围内以惊人的速度迅速扩展,现在已渗透到了工作生活的各个领域。面对如此众多的Web服务器与其上面丰富的Web信息资源,面对如此庞大的Internet用户群和相对有限的网络带宽资源,高效使用有限的网络带宽变得比以往更加重要,并且对Internet的应用前景具有决定性的影响。九十年代中后期以来,随着Internet的飞速发展以及在商业上的广泛应用,其效率和带宽的矛盾更为突出,WWW事实上已经成为当今国际标准的商业通信平台,因此,WWW上信息分发效率的研究迫在眉睫。本文结合所承担的国家“九五”重点科技攻关计划(96-743-01-01-05)专题“网络信息获取前后服务处理技术”和“金桥”工程项目的“Web信息获取系统”开发任务,采用可靠组播(Reliable Multicast Transport)和缓存(Cache)技术,对Internet的Web信息分发技术和效率问题进行了研究。论文的主要工作包括以下几个方面:1、分析了现有Web信息分发系统采用的技术及其不足。在工作中研究了使用组播传输技术来进行信息分发,并重点研究了缓存机制的效率:指出了目前存在着不能提供连续数据流可靠组播分发,以及客户端缓存统计功能欠缺,导致不能准确刻画用户使用Internet模式和Internet流量分布形态等不足。2、实现了适合信息发布的连续数据流可靠组播传输协议RMTP+。针对点对多点通信模式下实现连续数据流可靠组播的问题,对目前存在的组播传输协议在实现可靠组播方面的优缺点进行了分析,在RMTP协议(一种可靠组播协议)的基础上进行了改进和提高,将需要传输的连续数据流划分为数据块(每个数据块由一定数量的数据包组成),并以数据块为单位通过RMTP协议进行可靠的组播传输,从而实现整个数据流的可靠组播传输。在实现过程中,使用了否定的确认方式取代原有的肯定的确认方式,减少处理确认信息的负担。在构造组播树的过程中,按层次将组播组分为多个局部组,并在每个组中指定特定的接收者分级承担本组内确认包的处理,从而将发送者从沉重的确认包处理中解脱出来,提高了系统的性能:分析了RMTP+协议的理论性能,实现了该协议并在实际环境中测试和统计了吞吐量,同时也研究了理论值和试验数据之间的差异,解释了造成此种差异的原因。3、研究开发了客户化的WWW流量跟踪及测评技术。WWW流量的爆发使得精确了解WWW的使用情况变得甚为必要,特别是需要明了WWW用户对WWW文档的调用情况。为了解决这一问题,我们收集了客户调用WWW文档的跟踪信息,从而可以反映成千上万用户对WWW文档的请求情况。为了实现收集跟踪数据的目的,开发了在客户端对WWW流量进行跟踪的技术。通过对Netscape浏览器软件源代码进行修改并使之满足新的功能要求,捕获了大量的客户跟踪数据,记录了文档引用模式(Request Model)和用户实际访问WWW所花费的时间等关键参数信息。通过对收集到的数据进行分析,归纳了用户使用Internet的特征,包括文档大小的分布规律、文档流行度与其大小之间的关系、调用文档的用户请求的分布程度、文档引用次数与文档流行程度之间的关系。4、分析发现了WWW引用中的三种局域性,并提出了推测分发技术。通过对客户机访问WWW资源模式的分析,注意到了客户端发出的数据请求之间存在着三种不同的引用局域性(Reference Locality),即:时序局域性、相邻局域性、空间局域性。资料表明,以前在这方面的研究尚未全面充分的利用WWW通信本身具有的局域性特点,而仅利用了前两种引用局域性,通过研究发现,仅仅使用时序和相邻局域性还不足以使缓存的效率足够高。我们在利用前两种引用局域性的基础上,通过参考有关过去访问模式的知识,将空间局域性特点利用起来,从而将缓存系统的效率提高到更高的水平。5、分析了数据分布程度对分发效率的影响,重点考察了代理服务器在数据分发中的作用。信息所在的位置必然对信息的存取访问带来影响(如通信时间的长短、通信流量的多少等),在设计Web站点群时,如何使信息的分布情况更有利于远程客户对信息的访问,即提高信息的访问效率,是一个越来越重要的课题。本部分工作的主要目的在于尝试提供一种机制,使得“流行”数据将能够在分发过程中自动和动态的朝着方便信息用户访问的方向分布,最终希望达到的效果就是:越流行的数据,越靠近最终的用户。论文中提出了新的系统模型,并进行了效率分析,以期减少对服务器的重复访问,进而减少用户等待时间,减轻网络和服务器的负载。6、提出了归纳目录信息表示的增强ICP方案,实现缓存内容信息的共享。当前Web缓存共享技术的广泛使用由于ICP协议的代价和开销而变得困难。通过使用基于归纳表示的目录信息,提出了新的增强ICP协议,在Squid代理服务器中实现了原型系统并作了模拟对比性能实验。实验结果表明,新的ICP协议初步解决了在广域网范围内ICP协议的效率问题。7、基于可靠组播技术和PUSH技术,设计开发了一个WEB信息分发原型系统,其中使用连续数据流可靠组播模块可以实现组播传输文件和数据的目的,而PUSH分发原型系统可在Internet进行用户所需信息的登记,并使用PUSH信息分发方式将信息主动的传送到特定的用户。 |
语种 | 中文 |
公开日期 | 2011-03-17 |
页码 | 146 |
源URL | [http://ir.iscas.ac.cn/handle/311060/6074] ![]() |
专题 | 软件研究所_中科院软件所_中科院软件所 |
推荐引用方式 GB/T 7714 | 黄涛. Web信息分发技术及效率研究[D]. 中国科学院软件研究所. 中国科学院软件研究所. 2000. |
入库方式: OAI收割
来源:软件研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。