导 师: 任江涛
学科专业: H1204
授予学位: 硕士
作 者: ;
机构地区: 中山大学
摘 要: 网络搜索引擎是人们在网页的汪洋中检索信息的工具,能有效地提高信息定位的效率,是互联网上不可或缺的基础应用之一。网络检索系统大都是通过构建文本库、建立索引、进行搜索、对结果进行过滤的过程来实现查询目的。搜索引擎有效地解决了用户信息检索的困难。但是随着网络信息的快速增长,传统的搜索引擎所用到的分析器,并没有精确到某一个领域,导致索引的建立和返回的结果网页存在大量重复或者无用的信息,用户很难在短时间内找到自己所需的信息。传统的搜索引擎已经不能完全满足用户的需求,用户需要一种针对某一行业的,查询结果更加细化的专业搜索引擎。 本文在相关技术原理的基础上,通过一个实际项目的课题背景——中国电信网络百事通垂直搜索引擎进行说明,在这里分别阐述了该系统的总体设计和详细设计,展示该系统的实现效果。本论文的重点在于如何在Nutch开源框架基础上构建一个适合自己业务的完整的网络搜索引擎,并核心地讨论本人参与的主要模块的设计与实现——中文分词的设计与实现、并利用自己的分析器做索引、根据特定的业务规则排序查询结果,最后展示了实现效果以及和当前流行搜索引擎的比较。
关 键 词: 搜索引擎 检索系统 中文分词 索引器 结果排序
领 域: [文化科学—情报学]