导 师: 万常选
学科专业: H1203
授予学位: 硕士
作 者: ;
机构地区: 江西财经大学
摘 要: 可扩展标记语言xml已经成为数据交换的重要格式,并且广泛应用在数字图书馆、科学数据库以及互联网等领域。随着xml文档的广泛应用,对于xml文档检索的研究已逐渐成为信息检索领域的一个重要研究方向。目前对于xml信息检索的研究已经取得了一定的成果,但是排序的精确度不高。对xml检索结果的排序直接关系到xml信息检索的性能,但现有的xml检索结果排序模型考虑了词项在xml文档中出现的统计特性,但没考虑词项所在的位置,即视xml文档中各节点具有同等的重要性。然而,节点在整个xml文档中的角色不同,因此,相同内容出现在不同节点中,应该具有不同的权重,即不同的节点具有不同的语义权重。 本文提出了一种基于向量空间模型的xml节点语义权重自动获取方法,该方法主要是通过对节点与文档的相似性计算来获取节点的语义权重。实验数据选择wiki部分数据集,专家对各节点语义权重的手工标注结果与该模型自动标注结果的pearson相关系数达到0.827,说明该节点语义标注模型能够较好地分析节点在xml文档中的重要性,有利于改善排序效果。 另外,还进行了svd实验,在实验中根据奇异值分解重新生成了新的语义权重,通过比较我们发现经过svd后的权重模型与专家标注的pearson相关系数高达0.928,这说明分解后的效果更好。