化学主题网络爬虫的研究
文献类型:会议论文
作者 | 夏诏杰 ; 郭力 ; 李晓霞 |
出版日期 | 2009 |
会议名称 | 第十届全国计算(机)化学学术会议 |
会议日期 | 2009-10-23 |
会议地点 | 中国浙江杭州 |
关键词 | 主题网络爬虫 文本分类 机器学习 网页分块 |
页码 | 2 |
中文摘要 | 网络爬虫(Web Crawler)是指通过Web页面之间的链接关系从Web上自动的获取页面信息,并且沿着链接执行不断扩展的程序。随着网络的迅速发展,Web成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。为了更好地满足有特定主题或领域信息需求的用户,如化学领域的专业人员的需求,基于定向抓取主题相关网页资源的主题网络爬虫应运而生。主题网络爬虫根据既定的抓取主题目标,优先访问Web上的主题相关的链接抓取主题相关网页并剔除主题无关网页。本文将通用网络爬虫技术、ChIN(http://chin.csdl.ac.cn)所积累的网络化学相关领域知识以及机器学习方法相结合,设计和实现了化学... |
会议录 | 第十届全国计算(机)化学学术会议论文摘要集
![]() |
语种 | 中文 |
源URL | [http://ir.ipe.ac.cn/handle/122111/2541] ![]() |
专题 | 过程工程研究所_研究所(批量导入) |
推荐引用方式 GB/T 7714 | 夏诏杰,郭力,李晓霞. 化学主题网络爬虫的研究[C]. 见:第十届全国计算(机)化学学术会议. 中国浙江杭州. 2009-10-23. |
入库方式: OAI收割
来源:过程工程研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。