导 师: 汤庸
学科专业: H1202
授予学位: 硕士
作 者: ;
机构地区: 中山大学
摘 要: 互联网发展至今已有20年,现在从互联网上可获取的信息数据量已经非常庞大。为了在有限的时间和精力下最快地掌握最关注的信息,人们越来越依赖于计算机对相关信息的排序处理。排序问题具有非常重要的意义,它一直是信息检索研究领域的一个研究热点。 最早用于解决排序问题的方法是基于传统的排序模型来解决,它通常利用少量的文本特征,由人为设定和调整模型参数,不但利用的信息特征少而且缺乏灵活性。然而近来一些经典的机器学习技术被越来越多地应用到信息检索的研究上,特别是在排序问题的研究上用机器学习的方式来训练排序函数,这类算法被称为排序函数学习算法(learning to rank),其相关研究逐渐成为信息检索的一个热门研究方向。 本文经过对排序函数学习算法现阶段的各种经典设计方法进行调研,基于当前最好的pairwise型的rankboost排序函数学习算法框架,提出两种针对文档排序问题的算法设计:(1)利用排序问题中特别重视排序结果的前几位样本的特点,增强出于当前排序结果中靠前的样本的权值,使其在下一次的机器学习中获得更多的重视;(2)利用基于图的相关理论,对学习获得的排序函数的打分做了局部平滑的正则化处理,让相似的文档获得尽量接近的分数。本文在公开的letor数据集上采用交叉校验法进行实验对比,实验结果显示了本文提出的两种算法设计相对于基准算法的排序性能都有所提高,说明了合理地利用排序问题的特性以及借助其他领域的模型特点对排序函数学习算法研究都是很有帮助的。
领 域: [自动化与计算机技术] [自动化与计算机技术] [文化科学]