科学文献网络分析:文献评价、流派分析和模式查询处理
文献类型:学位论文
作者 | 姜晓睿 |
答辩日期 | 2013-04-17 |
文献子类 | 博士 |
授予单位 | 中国科学院大学 |
授予地点 | 北京 |
导师 | 诸葛海 |
关键词 | 评价“偏歧”,科学流派,流派特征词识别,3-hop*可达性索引,树模式查询 |
学位专业 | 其它专业 |
英文摘要 | 随着科学日新月异的发展,科技文献的数量以爆炸式速度快速增长,新的科学问题层出不穷,越来越多的科研人员投入到科技创新的事业中去,这些因素都导致科学研究世界中存在着越来越大的信息过载问题,科研人员在面对越来越强的竞争的同时,还要面对信息过载所带来的新的挑战。面对海量文献,科研人员需要利用有限的时间查询到最符合自己需要的文献,需要阅读最有价值最重要的文献,需要厘清研究领域的脉络寻找自己创新的道路,这都使得科研人员呼唤更智能、更高效地科研辅助工具。从科技工作者的角度分析,本文提出了科研辅助工具的三个功能,并围绕这三个方面为构建这样的科研辅助工具作出贡献。 第一,科技工作者需要一个科技文献或科技创新重要性的有效评价工具。对科研人员来说,哪些文献最有价值、哪些文献是必读文献这样的问题不可回避。本文在科技文献自动评价上,首次强调了科技文献评价算法存在的“偏歧”性问题,通过实例证明了“偏歧”性对评价效果的损害。通过分析评价“偏歧”的产生机制,本文提出了一个仅利用科技文献网络结构的基于不同对象间互增强关系的非“偏歧”文献评价算法MutualRank。本文第一次在文献评价研究中建立了基于用户(即科研人员)共识与认可度的统一测试集和金标准集。通过两个分别评估文献评价算法有效性和公平性的指标,本文充分对比了当下最先进的基于网络的科技文献评价算法,证实MutualRank算法在评价有效性和评价公平性两个方面都取得了很大的改进。在客观实验结果之外,MutualRank算法返回的文献集也很好地反映了测试数据集所涉及研究领域在近30年来的不同年代中的实际发展情况。 第二,在初次调研某一个研究问题或研究领域时,研究人员面对纷繁的文献和各异的思想首先要做的工作就是为这些文献和思想理出一条脉络来,这就是科学流派。本文首次提出自动科学流派分析的问题,并在其中一个子问题科学流派特征词识别上开展具体工作。本文认为通过挖掘不同词汇间的共存共现模式,科学流派特征词(至少在很大程度上)是可以自动识别的。本文对研究人员的科学创作过程做出了若干简化假设,并在此基础之上提出了SOT(School-of-Thought)流派特征词分析模型。在SOT的前身BCD模型(Background/sChool-of-thought/ Document-specific word)中,科学流派被直接定义为领域词汇的一个分布。通过分析BCD模型的能力和不足, SOT把流派定义为一组科学主题的分布,同时将流派特征词分为流派共性词和流派创新词。实验证明SOT模型已经具备比较好的科学流派特征词区分能力,初步证明了科学流派自动分析的可行性和价值。 第三,科研人员在日常工作中,经常需要查询相关的文献。在关键词检索之外,现有的文献数据库提供了丰富的结构信息,能够支持语义更加丰富的复杂模式查询。本文把支持复杂语义的科技文献库查询问题建模为科技文献网络上的(树)模式查询问题,利用图数据上的可达性索引改善科技文献查询的性能。在此问题上,本文做了两方面工作。首先,本文对作为模式查询处理基石的(基于跳转的)可达性索引做除了改进。本文提出了3-Hop*可达性索引,改善了基于跳转的可达性索引的索引性能、构建开销。其次,利用3-Hop*可达性索引,本文使用一个两遍节点筛选算法筛除满足属性约束、但不满足结构约束的候选匹配节点。使用基于可达性索引的节点筛选算法,查询性能得到很大提高。使用本文提出的3-Hop*可达性索引,查询性能可以进一步提高4-6倍。 |
学科主题 | 软件理论 |
语种 | 中文 |
公开日期 | 2013-07-05 |
源URL | [http://ictir.ict.ac.cn/handle/311040/1775] ![]() |
专题 | 中国科学院计算技术研究所学位论文_2013博士 |
推荐引用方式 GB/T 7714 | 姜晓睿. 科学文献网络分析:文献评价、流派分析和模式查询处理[D]. 北京. 中国科学院大学. 2013. |
入库方式: OAI收割
来源:计算技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。