元搜索网页自动抽取关键技术研究
文献类型:学位论文
作者 | 郗家贞 |
答辩日期 | 2014-05-28 |
文献子类 | 硕士 |
授予单位 | 中国科学院研究生院 |
授予地点 | 北京 |
导师 | 程学旗 |
关键词 | 元搜索,网络信息抽取,短正文网页,时间串 |
学位专业 | 其它专业 |
英文摘要 | 元搜索引擎是指将多个单一搜索引擎集成在一起,将用户的检索提问同时提交给多个独立的搜索引擎,获取检索结果。元搜索网页具有主题相关性高、质量优良以及来源广泛等优点,为网络数据分析中的数据源获取提供了有效的补充。网络信息抽取是指从结构化网页中抽取关键信息,如正文、标题、作者等。网络信息抽取在信息检索、移动设备上的个性化阅读、网络数据分析等方面有非常广泛的应用。由于元搜索中的内容页具有页面独立性、页面类型多样性等特点,使得传统的抽取方法在此应用场景下表现效果欠佳,尤其是针对元搜索环境下单记录页面中的短正文页面以及多记录页面的处理效果不好。因此,本文主要研究元搜索中短正文内容页面的正文自动抽取,以及多记录内容页面的自动信息抽取方法。 首先,针对单记录网页,本文提出了一种基于网页中最长文本长度的短正文网页分类算法,将短正文页面识别出来,单独做处理;针对短正文网页,提出了基于页面深度与文本密度相结合的短正文网页正文自动抽取算法。 然后,针对多记录页面,本文提出了一种基于时间串的多记录页面分类算法,将多记录内容页面分为四类——单楼页面,普通多楼页面,两楼页面以及主楼、跟帖结构不一致的多楼页面;针对这四类页面,本文分别设计了不同的元信息(包括发帖人、发帖时间以及发帖内容)抽取算法。 最后,基于以上研究内容,结合实验室已有研究成果,开发完成了元搜索系统信息抽取模块。 经测试,短正文网页正文自动抽取方法以及多记录页面信息抽取方法都取得了良好的抽取效果,满足了系统的需求。 |
学科主题 | 计算机系统结构其他学科 |
语种 | 中文 |
公开日期 | 2014-07-01 |
源URL | [http://ictir.ict.ac.cn/handle/311040/1985] ![]() |
专题 | 中国科学院计算技术研究所学位论文_2014硕士 |
推荐引用方式 GB/T 7714 | 郗家贞. 元搜索网页自动抽取关键技术研究[D]. 北京. 中国科学院研究生院. 2014. |
入库方式: OAI收割
来源:计算技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。