摘要:互联网发展至今已有20年,现在从互联网上可获取的信息数据量已经非常庞大。为了在有限的时间和精力下最快...互联网发展至今已有20年,现在从互联网上可获取的信息数据量已经非常庞大。为了在有限的时间和精力下最快地掌握最关注的信息,人们越来越依赖于计算机对相关信息的排序处理。排序问题具有非常重要的意义,它一直是信息检索研究领域的一个研究热点。 最早用于解决排序问题的方法是基于传统的排序模型来解决,它通常利用少量的文本特征,由人为设定和调整模型参数,不但利用的信息特征少而且缺乏灵活性。然而近来一些经典的机器学习技术被越来越多地应用到信息检索的研究上,特别是在排序问题的研究上用机器学习的方式来训练排序函数,这类算法被称为排序函数学习算法(learning to rank),其相关研究逐渐成为信息检索的一个热门研究方向。 本文经过对排序函数学习算法现阶段的各种经典设计方法进行调研,基于当前最好的pairwise型的rankboost排序函数学习算法框架,提出两种针对文档排序问题的算法设计:(1)利用排序问题中特别重视排序结果的前几位样本的特点,增强出于当前排序结果中靠前的样本的权值,使其在下一次的机器学习中获得更多的重视;(2)利用基于图的相关理论,对学习获得的排序函数的打分做了局部平滑的正则化处理,让相似的文档获得尽量接近的分数。本文在公开的letor数据集上采用交叉校验法进行实验对比,实验结果显示了本文提出的两种算法设计相对于基准算法的排序性能都有所提高,说明了合理地利用排序问题的特性以及借助其他领域的模型特点对排序函数学习算法研究都是很有帮助的。显示全部
摘要:随着interent的迅速发展,电子文本资源急剧膨胀,自动文本分类技术作为电子文本自动组织和管理的基础,应...随着interent的迅速发展,电子文本资源急剧膨胀,自动文本分类技术作为电子文本自动组织和管理的基础,应运而生。该技术的出现,极大方便了人们准确定位信息和管理信息,可被广泛应用于信息检索和文本过滤等领域。 但是,自动文本分类任务具有类别和样本数目多、特征维数高、噪音多、各类别样本数目不均衡等特点,文本分类器的准确性、稳定性和快速性还有待进一步提高。本文对影响文本分类性能的多项关键技术进行了深入的研究,提出了有效的改进办法。 本文的研究内容和创新性工作主要包括以下几个方面: 1.在信息检索领域,查全率与查准率的关系已在理论上有了深入的研究,但是在文本分类领域,二者的关系一直通过实验数据直观观察。本文首次从分类器整体性能评估的角度出发,从理论上分析了查全率、查准率以及测试集之间的关系,证明了在测试集确定的前提下,整个分类器的查全率与查准率是一对相互一致的性能指标,针对单个类别的查全率和查准率之间存在相互制约的关系,并且用实验对该结论进行了验证。 2.经典的特征权重计算方法tfidf(tem frequency and inverted documentfrequency)认为,文本中某特征的重要程度与特征在文本中出现的次数成正比,与训练集中包含该特征的文档数目成反比。本文考虑到特征在整个训练集中的分布对其重要程度的影响,提出了一种基于类别分布的特征权重计算方法 tfidfie(term frequency,inverted document frequency and inverted entropy),增大只在一个或几个类别中集中出现的特征的权重,减小在大多数类别都出现的特征的权重。实验结果表明,该方法可以显著提高分类性能。 3.特征选择和文本表示是两个相互独立的模块,特征选择的本质是考虑特征和类别的关系,选出对分�显示全部