中国科学院机构知识库网格系统: Internet化学化工搜索引擎的主题网络爬虫和索引研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

Internet化学化工搜索引擎的主题网络爬虫和索引研究

文献类型：学位论文


作者	夏诏杰
学位类别	博士
答辩日期	2008-06-11
授予单位	中国科学院过程工程研究所
授予地点	过程工程研究所
导师	杨章远
关键词	主题网络爬虫个性化网络爬虫倒排索引化学化工主题搜索引擎中文分词信息检索用户兴趣模型文本分类
其他题名	The Focused Crawler and Indexer in an Internet Chemistry Topic Search Engine
学位专业	应用化学
中文摘要	Internet作为信息的主要载体之一，其信息资源几乎涵盖所有学科领域。化学专业领域也不例外，Internet已经逐渐成为人们获取化学信息的主要途径。由于Internet具有节点平等、自由发布的特点，使Internet资源不仅体现为分布式、高度动态和海量，而且信息的质量参差不齐，出现所谓的“信息过载”和“信息迷失”的现象。化学工作者如何有效地从海量信息中检索所需要的、高质量的化学信息，面临着前所未有的挑战。尽管大型的通用搜索引擎可以用于专业信息的查询，但是这类通用搜索引擎在搜索专业信息的同时常会返回很多与主题不相关的噪声信息，因此研究与开发领域化、专业化的主题搜索引擎和针对个人兴趣的个性化搜索引擎是网络信息检索的一个发展趋势。本文在对Internet化学化工主题搜索引擎设计和分析的基础上，设计并实现了化学化工主题搜索引擎的两个主要模块：化学化工主题网络爬虫和基于化学化工词典的倒排索引，以此为基础建立了一个规模为1000万网页的化学化工专业搜索引擎原型系统ChemEngine。主题网络爬虫系统最大的特点是将待爬行的URL按照主题相关性进行排序。与广度优先（Breadth First）和深度优先（Depth First）等通用网络爬虫等相比，主题网络爬虫的爬行策略变为主题相关优先(Topic First)或者最佳优先（Best First）。本文通过对网络化学化工资源的抓取，比较了基于分类器（支持向量机、简单贝叶斯和中心向量）主题网络爬虫、基于关键词匹配主题网络爬虫（匹配网页全文、匹配标题文本和匹配锚文本）和基于链接分析（PageRank和BackLink）主题网络爬虫的爬行效果。爬行实验结果表明基于支持向量机分类器的主题网络爬虫的抓取效果优于其他主题网络爬虫和广度优先通用网络爬虫。实验还发现基于文档对象模型（DOM）的页面分块算法和基于视觉（VIPS）的页面分块算法的主题网络爬虫能进一步降低页面噪音和提高主题网页的爬行效果。另外实验结果显示种子URL对主题爬行的效果有较大的影响，尤其是在爬行的初始阶段。倒排文件作为一种简单、高效的文档数据索引方式，是搜索引擎系统实现的一项基础技术。在对Internet化学化工主题搜索引擎ChemEngine的倒排索引的设计和实现中，本文提出了对中文网页基于化学化工专业词典进行分词并以词为单位建立索引，而对除中文以外的网页以字为单位建立索引的方式，这样可以在查全率和查准率之间做出一定的权衡，并且能够减少索引信息对磁盘空间的占用。本文还提出了分桶建索引的算法，即正排索引和倒排索引都按照一定规则被存放在一系列的桶中，每一个桶中只存放一定范围词条（根据词条ID号）所对应的索引，通过合理安排桶的数量就可以减小各个索引文件的大小，方便倒排索引分布式的存储和处理。本文设计并实现了一种个性化搜索引擎的原型系统。用户首先通过个性化信息收集与管理系统采集和管理各自的兴趣信息，如关键字、样本文档和URL等。个性化信息收集与管理系统可根据获取的用户兴趣信息，为用户自动生成各自的兴趣模型。个性化爬行时根据用户提交的URL作为爬行起点，并在爬行过程中通过用户兴趣模型来对待爬行的URL进行用户兴趣优先级预测。实验结果表明基于支持向量机的个性化网络爬虫策略的爬行效果优于基于关键词匹配个性化网络爬虫和广度优先策略通用网络爬虫。实验同时显示用户兴趣范围的大小和用户兴趣信息收集的准确性对个性化网络爬虫的性能有较大影响。
语种	中文
公开日期	2013-09-13
页码	171
源URL	[http://ir.ipe.ac.cn/handle/122111/1014]
专题	过程工程研究所_研究所（批量导入）
推荐引用方式 GB/T 7714	夏诏杰. Internet化学化工搜索引擎的主题网络爬虫和索引研究[D]. 过程工程研究所. 中国科学院过程工程研究所. 2008.

入库方式： OAI收割

来源：过程工程研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。