中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
Top-k排序学习研究

文献类型:学位论文

作者牛树梓
答辩日期2014-05-28
文献子类博士
授予单位中国科学院研究生院
授予地点北京
导师马维英
关键词信息检索 排序学习 Top-k~序 相关性标注 主动学习 标注复杂度 排序融合 位置分布 Top-k~排序学习 层次产生过程
学位专业其它专业
英文摘要面对互联网中浩瀚的信息,用户需要借助信息检索技术获取有用的信息。信息检索主要研究如何高效的进行信息排序以满足用户的需求。排序学习用成熟的机器学习方法解决排序问题,性能优越,逐渐成为当今主流的信息检索模型,并得到了学术界和工业界的广泛关注。 目前排序学习的研究与应用大部分是基于绝对标注(两级或多级)的。然而基于绝对标注的排序学习框架存在固有缺陷,具体表现在一方面绝对标注的获取方式通常是不可靠的,另一方面基于绝对标注的训练数据不能为排序学习算法提供足够的序信息。因此本文探索一种能够为学习算法提供充分序信息的标注数据(简称充分标注),以及建立在充分标注之上的标注获取、排序模型的训练,通过新框架提高排序模型的检索性能。 从信息检索系统用户的需求来讲,Top-k~序就是检索结果列表的核心。受该现象启发,本文首先研究~Top-k~序是否是充分的标注。本文从实验和理论两个方面验证了与全序相比,Top-k~序是否为学习算法提供足够的序信息这一问题。从实验结果来看,以~Top-k~序为监督信息学习的排序模型性能在~$k$~很小时就可以接近甚至超过以全序为监督信息学习的排序模型的性能。从理论分析来看,Top-k~序的损失函数是理想的评价指标损失函数的更为紧致的上界。因而~Top-k~序是充分的标注。 基于~Top-k~序充分性认识,本文研究如何以低代价获得可靠的~Top-k~序。本文采用可靠的成对标注,利用偏序关系的传递性,提出了两种~Top-k~标注策略。一种获得真实~Top-k~序的基于小顶堆的~Top-k~标注算法,标注复杂度为~$\mathcal{O}(n\log k)$。另一种结合主动学习的思想,以更低标注复杂度~$\Theta(k\log k)$~获得几乎准确的~Top-k~序的主动~Top-k~标注算法。此外,为了获得更加可靠的标注结果,本文采用随机排序融合算法融合众包标注中多个不完整、不可靠的~Top-k~序来获得可靠、一致的标注结果。本文证明了这两种标注策略以及融合算法不但具有理论保证,而且在真实场景中可行的。 最后,本文研究了如何用~Top-k~序指导排序模型的学习。Top-k~序的层次产生过程分解出两部分序关系:前~$k$~个元素与后面元素之间的偏序关系以及前~$k$~个元素之上的全序。两部分序类型不同,适合不同的建模方法,这是~Top-k~序的建模特点。基于层次产生的认识,本文提出了层次~Top-k~排序学习算法框架,将两部分序区分对待,各自采用合适的方法建模,并给出了概率模型与非概率模型实现。概率模型~HOM~分别采用合适的概率模型建模两部分序的产生概率;非概率模型~FocusedRank~采用已有文档对学习方法建模偏序关系,用文档列表学习方法建模全序关系。这样充分利用了~Top-k~标注提供的序信息。 综上所述,针对现有基于绝对标注的排序学习框架存在的问题,本文提出了~Top-k~排序学习框架。本文首先验证了~Top-k~序作为标注信息的充分性,基于此提出了获得可靠~Top-k~序的三类可行的途径,最后提出了能够充分建模~Top-k~序信息的排序学习算法框架。研究表明~Top-k~排序学习框架有效解决了现有基于绝对标注的排序学习框架中存在的问题,从而显著提高检索性能。
语种中文
公开日期2014-07-02
源URL[http://ictir.ict.ac.cn/handle/311040/1992]  
专题中国科学院计算技术研究所学位论文_2014博士
推荐引用方式
GB/T 7714
牛树梓. Top-k排序学习研究[D]. 北京. 中国科学院研究生院. 2014.

入库方式: OAI收割

来源:计算技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。