中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于Nutch的Web网站定向采集系统

文献类型:期刊论文

作者徐健; 徐健; 张智雄
刊名现代图书情报技术
出版日期2009
期号177页码:1-6
关键词网站定向采集系统 Nutch 网站抓取 网页去噪
中文摘要在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。
学科主题信息技术
收录类别其他
资助信息国家“十一五”科技支撑计划子课题“网络科技信息监测与评价”(项目编号:2006BAH03B05)的研究成果之一
语种中文
公开日期2009-11-10
源URL[http://ir.las.ac.cn/handle/12502/2401]  
专题文献情报中心_中国科学院文献情报中心_信息系统部
推荐引用方式
GB/T 7714
徐健,徐健,张智雄. 基于Nutch的Web网站定向采集系统[J]. 现代图书情报技术,2009(177):1-6.
APA 徐健,徐健,&张智雄.(2009).基于Nutch的Web网站定向采集系统.现代图书情报技术(177),1-6.
MLA 徐健,et al."基于Nutch的Web网站定向采集系统".现代图书情报技术 .177(2009):1-6.

入库方式: OAI收割

来源:文献情报中心

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。