中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
XML技术在化学深层网数据提取中的应用

文献类型:期刊论文

作者卓流艺 ; 李晓霞 ; 郭力
刊名计算机与应用化学
出版日期2006
期号11页码:1137-1141
关键词Web数据提取 化学深层网 XML XSLT XPath 化学数据库
中文摘要Internet上的化学数据库是宝贵的化学信息资源,如何有效地利用这些数据是化学深层网所要解决的问题。本文总结了化学深层网的特点,基于XML技术实现从数据库检索返回的半结构化HTML页面中提取数据的目标,使之成为可供程序直接调用做进一步计算的数据。在数据提取过程中,先采用JTidy规范化HTML,得到格式上完整、内容无误的XHTML文档,利用包含着XPath路径语言的XSLT数据转换模板实现数据转换和提取。其中XPath表达式的优劣决定了XSLT数据转换模板能否长久有效地提取化学数据,文中着重介绍了如何编辑健壮的XPath表达式,强调了XPath表达式应利用内容和属性特征实现对源树中数据的定位,并尽可能地降低表达式之间的耦合度,前瞻性地预测化学站点可能出现的变化并在XSLT数据转换模板中采取相应的措施以提高表达式的长期有效性。为创建化学深层网数据提取的XSLT数据提取模板提供方法指导。
公开日期2013-10-30
版本出版稿
源URL[http://ir.ipe.ac.cn/handle/122111/4566]  
专题过程工程研究所_研究所(批量导入)
推荐引用方式
GB/T 7714
卓流艺,李晓霞,郭力. XML技术在化学深层网数据提取中的应用[J]. 计算机与应用化学,2006(11):1137-1141.
APA 卓流艺,李晓霞,&郭力.(2006).XML技术在化学深层网数据提取中的应用.计算机与应用化学(11),1137-1141.
MLA 卓流艺,et al."XML技术在化学深层网数据提取中的应用".计算机与应用化学 .11(2006):1137-1141.

入库方式: OAI收割

来源:过程工程研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。