导 师: 李磊
学科专业: H1202
授予学位: 硕士
作 者: ;
机构地区: 中山大学
摘 要: 该文对各种特征项抽取方式进行了详细的论述,通常是选取词作业特征项,但对于中文文本而言,因为词与词之间没有天然的分隔符,所以传统的中文全文检索系统大多是以字为特征项.我们提出了基于中文字串预分割的二元语法策略,它既保留了以字为特征的各种优点,同时又在一定程度上解决了以字为特征项进行检索的误组配问题.查询与文档的匹配也是全文检索的一个关键部分,基于字面的匹配是最为直接简单的方法,而且被实践证明是有效的,而我们结合了隐含语义索引和自组织神经网络索引方法,则在基于字面检索的基础上,实现了基于内容的检索,实验结果表明,该方法能够有效地提高检索的速度和性能.我们对自行开发的数据库管理系统ebaseⅢ进行扩展以实现全文检索功能.
关 键 词: 自动全文检索 向量空间模型 基于字面匹配 基于内容检索
分 类 号: [G252.7 TP311.13]
领 域: [文化科学] [自动化与计算机技术] [自动化与计算机技术]