导 师: 李磊
授予学位: 硕士
作 者: ;
机构地区: 中山大学
摘 要: 随着现代社会的发展,数据的重要性日益突出.已经拥有大量和海量数据的企业开始建立数据仓库,投资数据挖掘项目,以求改进服务和协助管理层决策.通过成功的数据预处理工作,提高数据质量水平,是这些项目成功的重要基础.由于数据和其质量问题的复杂性,在建立数据仓库的过程中,数据预处理成为最耗费时间和工作量的阶段.本文介绍了数据预处理的背景和研究现状;从实际情况出发,结合人身保险业的领域相关知识,详细探讨了数据预处理中单源问题和多源问题的解决方法;在此基础上,本文搭建了一个基于规则的数据预处理模型,并对实际的规则进行了分类和阐述.在该模型的框架内,本文还着重讨论了应用于行业背景下的重复记录消除技术.其中,本文提出对空值赋予确定的相似度,以使空值能够参与重复判定比较;利用行业特性,实施反向规则,以消除传递闭包误差等.这些方法都有助于解决实际问题,提高重复记录消除的检测精度,更好地实现重复值消除的目标.
分 类 号: [F840.62 TP274.2]
领 域: [经济管理] [自动化与计算机技术] [自动化与计算机技术]