帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

文档检索中句法信息的有效利用研究
Effectiveness of Syntactic Relationship in Document Retrieval

作  者: ; ; ; ; ;

机构地区: 中国科学院计算技术研究所

出  处: 《中文信息学报》 2008年第4期66-74,共9页

摘  要: 利用词项依存关系来改进词袋模型,一直是文本检索中一个热门话题。已有的定义词项依存的方法中,有两类主要的方法:一类是词汇层次的依存关系,利用统计近邻信息来定义词项依存关系,另一类是句法层次的依存关系,由句法结构来定义词项依存关系。虽然已有的研究表明,相对于词袋模型,利用词项依存关系能够显著地提高检索性能,但这两类词项依存关系却缺乏系统的比较:在利用词项依存关系来改进文档和查询的表达上,如何有效地利用句法信息,哪些句法信息对文本检索比较有效,依然是个有待研究的问题。为此,在文档表达上,比较了利用近邻信息和句法信息定义的词项依存关系的性能;在查询表达上,对利用不同层次的句法信息所定义的词项依存关系的性能进行了比较。为了系统地比较这些词项依存关系对检索性能的影响,在语言模型基础上,以平滑为思路,提出了一个能方便融入这两类词项依存关系的检索模型。在TREC语料上的实验表明,对于文档表达来说,句法关系较统计近邻关系没有明显的差别。在查询表达上,基于名词/专有词短语的部分句法信息较其他的句法信息更加有效。 To relax the term independence assumption, term dependency is introduced and it has improved retrieval precision dramatically. There are two kinds of terra dependencies: one is defined by terra proximity, and the other is defined by syntactic dependencies. In: this paper, we take a comparative study to re-examine these two kinds of term dependencies in dependence language model framework and presents a smooth-based dependence language model. We studied the effectiveness of syntactic dependencies in query representation and document representation respectively. The experimental results on TREC collections show: 1) Syntactic dependencies get a better result than term proximity in document representation. 2) In: query representation, concept-based part syntactic dependencies are more effective than other syntactic dependencies.

关 键 词: 计算机应用 中文信息处理 信息检索 词项依存 句法分析 词项近邻

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 吴劲
作者 占勇
作者 贺文丽
作者 陈冬花
作者 陈之

相关机构对象

机构 中山大学资讯管理学院信息管理系
机构 中山大学资讯管理学院
机构 中山大学
机构 华南理工大学
机构 华南师范大学经济与管理学院

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊