中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
个性化专业搜索引擎研究

文献类型:学位论文

作者霍东云
学位类别硕士
答辩日期2007-06-12
授予单位中国科学院过程工程研究所
授予地点过程工程研究所
导师聂峰光
关键词个性化 专业化 搜索引擎 文本分类 材料科学 Medline SVM KNN
其他题名Personalized Search Engine on Special Domain
学位专业应用化学
中文摘要面对飞速增长的互联网信息,搜索引擎成了找到和利用这些信息的最重要工具。通用搜索引擎能够为使用者提供便利的服务,但是对于有特殊要求的使用者来说,通用搜索引擎提供的服务并不能令人满意,个性化搜索引擎因此成了搜索引擎发展的一个方向。另外,对科学工作者来说,专业化的信息具有更重要的意义,因此个性化,专业化是他们对搜索引擎的要求。个性化专业搜索引擎技术包括了搜索引擎、个性化模型、以及与专业相关的文本分类这三个方面的内容。本文完成了ChemEngine化学化工搜索引擎中个性化资料收集和管理系统,用来建立个性化模型。同时针对个性化专业搜索引擎系统B/S结构存储限制和运算能力限制而难以大规模实际应用的问题,提出了实现单机版的个性化专业搜索引擎系统的概念,充分利用个人计算机的计算能力。另外,在具体应用中,为个性化专业搜索引擎建立良好的分类模型极为重要,为此本文对专业文本分类进行了研究,为实现个性化专业搜索引擎系统建立文本分类模型提供了具有指导意义的结论。本论文的具体工作主要包括以下三个方面: 1.根据个性化模型建立的特点,设计和实现个性化专业搜索引擎用户个性化资料收集和管理系统。采用B/S模式,提供灵活实用的Web界面,为收集用户个性化模型的资料以及用户管理个性化模型提供方便的工具。 2.利用Linux平台下优秀的开放源代码搜索引擎系统ASPseek,进行核心程序的更新,同时进行跨平台的研究,得到一个可以运行于Linux和Windows平台的性能优异的搜索引擎系统,为搭建个性化专业搜索引擎作好准备。特别是系统能够运行于Windows的特性,为实现单机版的个性化专业搜索引擎系统准备了基础。 3. 对专业文本分类进行研究,使用支持向量机(SVM)和最佳K近邻(KNN)算法,首先研究了人工标记的材料科学专业的文本分类,接着利用专家标记的Medline数据库,研究了如何利用Medline文摘库和MeSH信息进行文本分类。通过实验,发现专业文本分类问题对不同的专业,有不同的特点,进行具体专业分类时,需要根据实际情况进行优化,分类参数对不同的专业不具有推广性。
语种中文
公开日期2013-09-13
页码91
源URL[http://ir.ipe.ac.cn/handle/122111/1156]  
专题过程工程研究所_研究所(批量导入)
推荐引用方式
GB/T 7714
霍东云. 个性化专业搜索引擎研究[D]. 过程工程研究所. 中国科学院过程工程研究所. 2007.

入库方式: OAI收割

来源:过程工程研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。