博士论文-Web内容监控研究
文献类型:学位论文
作者 | 翟伟斌 |
学位类别 | 博士 |
答辩日期 | 2007 |
授予单位 | 中国科学院研究生院 |
授予地点 | 北京 |
导师 | 许榕生 |
关键词 | 信息获取 协议还原 中文分词 特征向量 聚类 分类 |
学位专业 | 核技术及应用 |
中文摘要 | 随着Internet的快速普及,Web已经成为世界上最大的资料库,给我们日常生活和学习带来了很多便利,同时由于Web内容难以规范管理,Web上存在越来越多的内容不规范的网页,这些不规范网页引起了许多社会问题。为了净化网络环境,本文提出一种基于内容的Web监控方式,该方式在不影响正常网络通讯的情况下,将Web的主题内容提取出来然后进行聚类、分类处理,可以做到基于内容的自动类别识别,解决了目前常用的基于关键词过滤和URL访问列表进行监控时遇到的难题。; 为了避免相同网页的重复处理,本文设计一种针对URL的哈希函数SimHash,该函数可以快速查询一个网页是否需要处理,通过实验验证,该函数具有较高的可用性。; 针对Web上存在过多的镜像网页,消除镜像网页对于Web内容监控来说可以有效提高处理速度和降低存储空间。本文提出一种基于噪音去除和特征码相结合的方式来消除镜像网页,实验结果表明,该方法针对主题内容相同的镜像网页具有很好的判断能力。; 汉语信息处理需要进行汉语分词处理,由于Web上新词出现比较频繁,而且人名词比较多,这些未登录词都对汉语分词了提出一定的挑战,本文结合计算所的开放分词源码,采用重复子串扫描来进行新词的识别,可以有效解决新词识别问题。; 汉语分词程序需要频繁访问分词词典,词典的性能已经成为分词程序的瓶颈,本文设计一种动态TRIE索引树的汉语分词词典,通过实验验证,该词典具有较高的性能。; 文档聚类可以将大量文档进行内容相似性汇聚,由于Web内容监控需要处理的文档数量比较多,而且文档是动态增加的,传统的聚类算法难以满足本文需求。本文提出一种GFGC快速聚类算法,通过实验验证,该算法可以满足Web内容监控的需求。; 文档分类可以进行有倾向性的文档类别识别,本文提出一种等效半径和KNN相结合的分类算法ERKNN,该算法解决了KNN算法难以处理大批量文档的缺陷,实验结果表明,该算法具有KNN的准确率而且具有接近向量夹角的速度,可以满足Web内容监控的需求。 |
学科主题 | 核技术及应用 |
语种 | 中文 |
公开日期 | 2016-02-25 |
源URL | [http://ir.ihep.ac.cn/handle/311005/210350] ![]() |
专题 | 计算中心_学位论文和出站报告 |
作者单位 | 中国科学院高能物理研究所 |
推荐引用方式 GB/T 7714 | 翟伟斌. 博士论文-Web内容监控研究[D]. 北京. 中国科学院研究生院. 2007. |
入库方式: OAI收割
来源:高能物理研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。