中国科学院机构知识库网格系统: 化学主题网络爬虫的研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

化学主题网络爬虫的研究

文献类型：会议论文


作者	夏诏杰 ; 郭力 ; 李晓霞
出版日期	2009
会议名称	第十届全国计算(机)化学学术会议
会议日期	2009-10-23
会议地点	中国浙江杭州
关键词	主题网络爬虫文本分类机器学习网页分块
页码	2
中文摘要	网络爬虫(Web Crawler)是指通过Web页面之间的链接关系从Web上自动的获取页面信息,并且沿着链接执行不断扩展的程序。随着网络的迅速发展,Web成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。为了更好地满足有特定主题或领域信息需求的用户,如化学领域的专业人员的需求,基于定向抓取主题相关网页资源的主题网络爬虫应运而生。主题网络爬虫根据既定的抓取主题目标,优先访问Web上的主题相关的链接抓取主题相关网页并剔除主题无关网页。本文将通用网络爬虫技术、ChIN(http://chin.csdl.ac.cn)所积累的网络化学相关领域知识以及机器学习方法相结合,设计和实现了化学...
会议录	第十届全国计算(机)化学学术会议论文摘要集
语种	中文
源URL	[http://ir.ipe.ac.cn/handle/122111/2541]
专题	过程工程研究所_研究所（批量导入）
推荐引用方式 GB/T 7714	夏诏杰,郭力,李晓霞. 化学主题网络爬虫的研究[C]. 见:第十届全国计算(机)化学学术会议. 中国浙江杭州. 2009-10-23.

入库方式： OAI收割

来源：过程工程研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。