导 师: 任江涛
学科专业: H1204
授予学位: 硕士
作 者: ;
机构地区: 中山大学
摘 要: 随着internet的高速发展,web的信息量越来越大,当前最流行的网页导航工具通用搜索引擎在信息采集、信息存储等方面面临着巨大的挑战。另外,由于通用搜索引擎只是对网页的文本建立分词索引,而面向的是几乎所有类型的用户,包罗万象的结果越来越难满足用户精确搜索的要求。于是,面向专业领域的垂直搜索引擎就成为搜索引擎一个新的发展方向。 垂直搜索引擎与通用搜索引擎最大的区别就是前者对网页进行了页面净化、信息抽取、页面分类、数据挖掘等深度的加工。经过这些加工之后,它能为用户提供覆盖率和准确率都比较高的搜索结果。在垂直搜索引擎的构建过程中,从web的半结构化数据中抽取出结构化数据是其中最重要步骤之一,它为网页分类,数据挖掘等处理过程提供基础数据。 本文通过一个实际项目——中国电信号码百事通垂直搜索引擎——提出如何在nutch开源框架基础上构建一个完整的垂直搜索引擎,并重点讨论本人参与的主要模块——信息抽取子系统的设计与实现。信息抽取子系统包括网页规范化、网页净化、结构化信息抽取、信息存储等模块。文中提出了采用分词技术对网页进行净化的新方法,在信息抽取过程中,设计实现了一种结合正则表达式和xpath技术的数据抽取方法。
关 键 词: 垂直搜索引擎 信息抽取 网页净化 分词技术 正则表达式 技术
分 类 号: [G354.4]
领 域: [文化科学]