基于NUTCH 的新闻服务系统的研究
文献类型:学位论文
| 作者 | 丁海斌 |
| 学位类别 | 博士 |
| 答辩日期 | 2008-06-03 |
| 授予单位 | 中国科学院软件研究所 |
| 授予地点 | 软件研究所 |
| 关键词 | 新闻服务 新闻采集 信息抽取 NUTCH |
| 其他题名 | Research of News Engine Based NUTCH |
| 中文摘要 | 据调查显示,新闻阅读是人们上网的一个重要目的,然而众多的新闻网站使得人们难以选择浏览自己感兴趣的新闻。新闻服务系统在很大的程度上解决了这个问题,但是这些商业新闻系统的实现却不得而知。 本文对现有的国内外新闻服务的技术和系统进行了分析和综述。在此基础上提出了使用NUTCH作为平台,通过修改NUTCH,增加插件的方式来使得NUTCH满足新闻服务的需求。本文的主要工作有: 第一,对目前的新闻服务技术,新闻服务系统做了较为全面的综述。介绍了开源系统NUTCH,对NUTCH的架构,特别是插件系统进行了系统、深入的研究。 第二,分析了新闻页面的采集方法,陈述了使用爬虫进行新闻采集的优点,进而对爬虫技术进行介绍。通过分析新闻网站的链接结构特征,提出并实现了基于正则表达式的URL过滤和基于评分的URL排序相结合的新闻采集策略。针对新闻页面的布局特征,分析了新闻主题内容的多种提取方法,设计并实现了可配置的分装器和基于DOM的两种新闻主题内容提取方法。 第三,介绍分析了个性化推荐方法,提出了一种基于新闻分类层次进行用户兴趣建模的新闻协同推荐算法。 第四,基于对NUTCH和新闻服务引擎各个模块的分析,实现了一个基于NUTCH的新闻服务系统。 |
| 语种 | 中文 |
| 公开日期 | 2011-03-17 |
| 页码 | 77 |
| 源URL | [http://ir.iscas.ac.cn/handle/311060/6490] ![]() |
| 专题 | 软件研究所_中科院软件所_中科院软件所 |
| 推荐引用方式 GB/T 7714 | 丁海斌. 基于NUTCH 的新闻服务系统的研究[D]. 软件研究所. 中国科学院软件研究所. 2008. |
入库方式: OAI收割
来源:软件研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
