导 师: 张军英;王树鹏
学科专业: H1203
授予学位: 硕士
作 者: ;
机构地区: 西安电子科技大学
摘 要: 随着当今社会信息化程度的提高,各行各业都面临着大规模的数据,这些数据通常在上百GB甚至数十TB的级别,并且还在以飞快的速度增长,这些就是所谓的海量数据。海量数据的存储和管理是当今的一个热点问题。目前对于海量数据的管理主要有两种方式。一种是对传统的数据库,通过一系列的切分规则使得数据水平分布到不同的数据库或表中,再通过相应的数据库路由或者表路由规则找到需要查询的具体的数据库或者表,以进行查询操作。该方案的缺点是架构复杂,实现以及应用程序的编写较为困难,并且难以维护。另一种是基于分布式文件系统的KEY/VALUE非关系型数据库,这种数据库降低了对事务的要求,有高的性能和可用性,但是其缺点是难以构建复杂的查询逻辑。本文提出了一种基于全文搜索引擎工具包LUCENE的分布式海量数据存储检索系统的设计及实现,针对结构化和半结构化数据,较好的实现了海量数据的分布式存储,提供高效的数据加载与检索能力,并对用户提供类SQL语言的查询和C/C++编程接口,而且在可扩展性和数据容错性上有出色的表现。
领 域: [自动化与计算机技术] [自动化与计算机技术]