面向主题的WWW信息挖掘及实验系统TWIMS
文献类型:学位论文
作者 | 余晨 |
学位类别 | 博士 |
答辩日期 | 2002 |
授予单位 | 中国科学院软件研究所 |
授予地点 | 中国科学院软件研究所 |
关键词 | 搜索引擎 主题 爬行器 权威页面 HUB页面 |
其他题名 | Topic-Driven Web Information Mining and The Design and Implementation of TWIMS |
学位专业 | 计算机应用技术 |
中文摘要 | 该文首先对WorldWideWeb的产生、发展及其工作原理作了概述,引出了网络检索问题,分析了当前搜索引擎的工作原理.近年来聚焦于单一主题的WWW检索逐渐受到重视,提出了聚焦爬行(FocusedCrawling)的概念.该文在此基础上结合数据挖掘技术提出一种面向主题的WWW信息挖掘框架,不仅能够在有限的软硬件和网络资源条件下,实时高效地完成主题相关的网页的收集,更重要的是能够对检索到主题相关网页进行链接结构分析和相关主题分析,最大限度的对主题进行挖掘,这是普通搜索引擎也不具备的.全文共分为以下五章:第一章介绍了WWW和WWW上搜索技术发展的现状.第二章分析了普通搜索引擎技术.第三章阐述了面向主题的WWW信息挖掘框架.第四章描述了系统原型TWIMS的设计与实现,对在各个模块开发中所涉及到的关键技术进行了讨论,包括数据结构、核心算法和流程分析、多线程控制的技术实现等等.第五章总结全文并提出了进一步的工作展望. |
语种 | 中文 |
公开日期 | 2011-03-17 |
页码 | 47 |
源URL | [http://ir.iscas.ac.cn/handle/311060/7638] ![]() |
专题 | 软件研究所_中科院软件所_中科院软件所 |
推荐引用方式 GB/T 7714 | 余晨. 面向主题的WWW信息挖掘及实验系统TWIMS[D]. 中国科学院软件研究所. 中国科学院软件研究所. 2002. |
入库方式: OAI收割
来源:软件研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。