帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

依赖于查询的排序学习算法研究

导  师: 汤庸

学科专业: H1202

授予学位: 硕士

作  者: ;

机构地区: 中山大学

摘  要: 排序是信息检索的核心问题,因为一个搜索系统的好坏主要由它的排序结果的正确率来评价。信息检索中提出了许多排序模型。直到最近,被称为“排序学习”的机器学习技术被深入应用于这个任务。在过去的大部分工作中,一个单一的排序模型被用来处理所有的查询。这可能是不太恰当的,因为不同的查询之间往往有比较大的差异。 本文首先论述对于不同的查询,采用不同的排序模型的必要性。然后提出一个通用的依赖于查询的排序学习框架。该框架是基于查询聚类的。该框架将训练查询表示成查询特征空间的一个点。在排序的时候,给定一个测试查询,框架找出与它接近的训练查询,构建一个依赖于测试查询的训练集,然后用这个训练集训练一个模型,最后使用这个模型对与测试查询关联的文档进行排序。这个框架对于改善排序的精度确实是有帮助的,因为它利用了相似查询的有用信息,同时避免了不相似查询的负面影响。 当进行查询聚类的时候,使用的查询特征以及查询相似性的计算,对于聚类的精度是非常关键的。从以前的工作中,我们知道同样的特征对于不同的查询,它的区分度是不一样。本文提出了一种新颖的查询相似性表示方法:利用特征的区分度将查询表示成一个特征排序,然后本文使用特征排序的相似度来表示查询的相似度。本文构建依赖于测试查询的训练集时,使用了两种方法来选择相似的查询:knn和固定距离的算法。 本文在letro(trec,ohsumed)数据集上进行实验。实验结果表明,依赖于查询的排序方法要优于使用单一排序模型进行排序的方法。

关 键 词: 排序学习算法 机器学习 信息检索

领  域: [自动化与计算机技术] [自动化与计算机技术] [文化科学]

相关作者

作者 唐小娟
作者 崔穗旭
作者 姚若辉
作者 刘燕萍
作者 梁颖殷

相关机构对象

机构 中山大学资讯管理学院
机构 中山大学资讯管理学院信息管理系
机构 华南师范大学经济与管理学院
机构 中山大学
机构 中山大学资讯管理学院资讯管理系

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊