导 师: 刘财兴
学科专业: L01
授予学位: 硕士
作 者: ;
机构地区: 华南农业大学
摘 要: 搜索引擎能帮助用户实现基于互联网的信息检索,但用户对通用搜索引擎的使用效果不太满意,主题搜索引擎的出现能满足这种检索请求向专业化发展的趋势,由于主题搜索引擎只检索与“主题”有关的信息,因此可以用较小的软硬件代价来实现,同时又有高度的目标化和专业化,用户对查询结果的满意度较高。 本文主要研究面向主题的搜索引擎,涉及的内容包括: (1)介绍了搜索引擎的概念、工作原理及其发展趋势,指出了主题搜索引擎的产生背景、主要特点和系统结构。 (2)引入本体技术来解决主题的表达问题,介绍了本体的概念、使用语言和构建方法,并构建了一个用本体表示的主题。 (3)设计和实现了一个主题搜索引擎系统的原型,包括搜索器、索引器、检索器和用户接口的实现。其中搜索器使用主题爬虫来实现,索引器和检索器通过lucene全文检索工具来实现。 (4)设计和实现了一个主题爬虫系统来实现信息的主题搜索。其中分析了向量空间模型的优缺点,根据web页面的特点对该模型的权重计算方法加以改进,并重点讨论了页面的主题相关度的评价和爬虫的搜索策略两个关键问题。 (5)设计了一种使用本体来进行文本过滤的方法,即通过本体来形成主题的概念向量表示,并对比分析了基于关键词向量和基于本体的概念向量两种不同方法的主题过滤作用。 (6)实现了一个用户接口程序。该程序能接收用户查询请求,并将检索器返回的查询结果显示给用户。其中为更好的理解用户的查询请求,设计了一个基于本体的查询扩展模型,即通过对用户的查询关键词进行概念语义扩展来进行相关检索。 (7)指出下一步的研究工作。 总之,本文设计的面向主题的搜索引擎系统,实现了针对主题信息的采集、索引、检索�
领 域: [自动化与计算机技术] [自动化与计算机技术]