化学深层网集成检索系统ChemDB Portal的优化与扩展
文献类型:学位论文
作者 | 刘增才 |
学位类别 | 硕士 |
答辩日期 | 2008-05-30 |
授予单位 | 中国科学院过程工程研究所 |
授予地点 | 过程工程研究所 |
导师 | 李晓霞 |
关键词 | 化学数据库 深层网 XML 多线程 元数据 数据字典 Struts2 Spring Hibernate ExtJS |
其他题名 | System Optimization and Extension of a Chemistry Deep Web Search Engine - ChemDB Portal |
学位专业 | 应用化学 |
中文摘要 | 分布在Internet上的化学数据库是宝贵的化学信息资源,化学深层网是这类数据库的集合。化学深层网检索的目标是利用一个查询,实现多个化学数据库数据的同时检索和多来源数据的集成。实现这个目标需要解决的基本问题包括:数据源发现、检索提交、数据提取、数据集成。由于深层网数据挖掘的复杂性,上述问题尚未得到较好的解决。 本论文是在课题组建立的、基于XML技术的化学深层网集成检索与数据提取原型系统ChemDB Portal基础上,对ChemDB Portal的结构和性能进行了优化、对功能进行了扩展,所完成的主要工作包括: 1.原系统在结构设计时采用了JSP Model1(JSP+Bean)的设计模式,各部分代码紧耦合,可读性较差,不利于系统的维护和功能扩展。本论文在分析了各种Web应用程序设计模式的特点后,提出采用基于MVC设计模式的Struts2框架对原系统进行重构的办法,实现了视图层、控制层和业务模型层的分离,降低了各部分代码的耦合性,提高了系统的可维护性。 2.原系统在对多来源数据的检索和提取过程中,采用了串行的模式对各个Web化学数据库进行逐一处理,运行效率较低。本论文引入多线程并行处理模式,实现了对多个Web化学数据库并行检索和数据提取;采用线程池来管理线程的调度,减少了线程创建和销毁的开销;在对线程内部各个模块性能进行系统测试和分析的基础上,对程序运行速度影响较大的处理模块进行了代码优化,提高了单个线程任务的处理速度。本论文还采用Ajax技术实现了检索结果列表页面的动态更新显示。测试结果表明,经过多项优化改造后,ChemDB Portal系统的运行效率得到大幅度的提高。 3.构建了一个集多来源数据相关知识管理、日志管理、连接池管理、维护人员管理等功能的后台管理工具。采用化学数据库元数据和数据字典对远方数据库的数据内容、数据分类、数据来源等信息进行规范性描述和管理。通过整合Struts2、Spring、Hibernate轻量级J2EE开源框架来搭建Web应用系统架构,并采用ExtJS的JavaScript UI组件库来建立具有一对多、多对多复杂处理逻辑的管理页面,提高了程序开发效率。后台管理工具的建立不仅为ChemDB Portal系统的日常管理维护工作带来了很大的便利,也为实现多来源数据的集成奠定了良好基础。 总之,本论文通过综合运用多项Web应用程序开发技术,对ChemDB Portal原型系统的结构和性能进行了优化,为其建立了后台管理工具,不仅提高了系统的可维护性和扩展性,也提高了ChemDB Portal原型系统的实用性。 |
英文摘要 | The chemistry Deep Web refers to the collections of chemical databases on Web that are valuable chemical information on Internet. ChemDB Portal is a prototype search engine for chemistry Deep Web based on XML technology that aims at searching the data from multiple web sites of chemical databases by one query. With a single query, it automatically constructs data retrieval requests for a number of Web chemical databases. When the semi-structured HTML result page returns, JTidy is used to convert the page into a standardized XHTML, then XSLT templates can be applied for data extraction. The extracted data in XML is mapped into a local database by XML-DBMS middleware. This system may offer users a convenient and efficient way to obtain data from multiple sources on the Web in near future. However, the prototype of ChemDB Portal still has some limitations in the structure and process of work flow. The JSP Model1 pattern (JSP + Bean) was used in structural design of ChemDB Portal, in which all part of the code couples tightly and that makes it hard to maintain. In data retrieval and extraction process, the prototype processes multiple queries to Web chemical databases sequentially, which brings in lower efficiency. To improve the maintainability, a solution using Struts2 framework based on Model-View-Controller (MVC) design pattern to reconstruct the ChemDB Portal prototype has been proposed and implemented in this paper. Multi-threaded programming has been adopted for parallel processing of multiple queries to Web chemical databases by using thread pool technology. The thread pool is implemented using the java.util.concurrent package and the number of threads has been proposed based the multi-thread performance tests. Codes in a single thread were optimized based the performance analysis of a single thread. Ajax technology has been introduced into the dynamic output pages generating of ChemDB Portal to further improve its performance. A management tool for ChemDB Portal has been created based on the metadata for description of remote data sources, configuration parameters for automated query construction, extracted data categorization, easy access of log records and user access control. The tool is built by integrated Struts2, Spring, Hibernate lightweight J2EE open-source framework. ExtJS Javascript UI library is used to develop the management pages with complex logic. This tool will facilitate the daily maintenance and scale up of ChemDB Portal. With the work above, the performance and extensibility of ChemDB Portal for searching the chemistry Deep Web have been improved significantly, and its maintenance becomes more convenient. |
语种 | 中文 |
公开日期 | 2013-09-13 |
页码 | 80 |
源URL | [http://ir.ipe.ac.cn/handle/122111/1236] ![]() |
专题 | 过程工程研究所_研究所(批量导入) |
推荐引用方式 GB/T 7714 | 刘增才. 化学深层网集成检索系统ChemDB Portal的优化与扩展[D]. 过程工程研究所. 中国科学院过程工程研究所. 2008. |
入库方式: OAI收割
来源:过程工程研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。