导 师: 彭宏
学科专业: H1201
授予学位: 硕士
作 者: ;
机构地区: 华南理工大学
摘 要: 本文先后讨论了数据质量的产生原因及其影响要素、数据质量问题的分类、数据质量分析方法以及数据质量分析系统的概要模型。主要工作和创新点如下: 1.将数据质量分析方法归结为基于规则分级别分析的方法;应用动态聚类算法来进行相似重复记录检测,采用编辑距离算法度量记录之间的距离; 2.在总结当前数据质量分析方法的基础上,设计数据质量分析系统的概要模型,将数据质量分析系统的主要功能分为域分析和过滤器分析; 3.设计和实现了一个应用xml,web service等技术的数据质量分析系统,实现了域分析与过滤器分析等主要功能模块,为用户提供了一个分布式、跨平台、扩展性强、支持多用户、界面友好的数据质量分析平台; 对数据质量分析方法进行了总结,并设计了数据质量分析系统的概要模型,具有一定的理论意义;在此基础上,设计的数据质量分析系统,对该模型进行了实现,给用户提供了一个容易使用,界面友好的分析流程,增加了系统的实用性,这些都是对数据质量技术的应用很有意义的研究。
关 键 词: 企业信息管理 数据质量 质量分析系统 概要模型
分 类 号: [TP311.12 F270.7]