导 师: 张师超;严小卫
学科专业: H1202
授予学位: 硕士
作 者: ;
机构地区: 广西师范大学
摘 要: 为了高额利润,许多公司正在大量地使用网上的廉价信息。这导致公司的数据量日趋增大。因此,从巨量的数据集中快速地找出感兴趣的模式已成为一个紧迫的任务。数据挖掘为解决这一问题提供了许多有效的算法和技术。然而,这些技术是建立在正确的、相关的和无冲突的数据这个假设之上。因为现实生活中的数据通常是肮脏的,这些技术离实际应用还有一段很长的距离。所以,数据清洗是数据挖掘中的不可少的关键步骤。它直接关系到获取的知识的质量和数据挖掘算法的效率。数据清洗的研究一般可粗略地分为两个部分:⑴纠正数据的错误。⑵把多个数据源整合以获得实时对象更为完整的信息。其中数据源整合在很多相关领域都是一个重要的处理步骤。任何大型实时数据集在整合过程中,数据的质量、正确度、一致性、完备性和可信度都是数据整合好坏的关键。遗憾的是,数据的输入和获取经常倾向于含有或多或少的错误。总结起来,整合过程中出现的数据异常主要是由以下几个方面引起:⑴数据库之间缺乏统一的标志。即表示同一对象的数据库记录的id不唯一,这就是所谓的对象识别问题。⑵不同组织采用不同的格式表示数据,这对数据的整合也造成一定的困难。⑶输入大量的数据时,总会或多或少出现一些错误。⑷存在不一致的数据。合并多个数据源后,由于各种数据源表示模式,表示惯例并不相同,再加上一些输入错误、不一致的缩写等其他因素,使得合并后的数据存在不同描述但却表示同一实体的情况,称为复制记录。基于数据的一致性原则,所有数据源都不允许出现复制记录,我们必须检测出复制记录,并删除它。本文首先阐述了数据清洗在多个领域的重要作用,介绍了目前国内外数据清洗领域的研究状况,并指出现有技术存在的不足,针对这些不足之处,提出了自<WP=6>己的解决办法,并通过实验结果验证了所提出算法的有效性和准确性。本文的主要工作可以概括为以下几个方面:⑴ 分析了当前数据清洗的研究现状,指出了当前数据清洗系统存在的不足。当前的数据清洗系统都缺少预处理的操作,这增加了后面数据清洗的负担。论文提出了一种利用外部源文件擦除脏数据的方法,它能对一些简单的数据错误和不一致现象进行处理,并设法避免了名称缩写不一致的情况,使得数据清洗的处理达到更好的效果,同时还提出了一个按照特定要求转化成多个不同结构数据库方法的新思路。⑵ 采用针对大型数据的Canopy聚类技术对数据记录进行匹配,并提出一种下调距离阈值方法,减少了需要精确计算的记录对之间的计算量。公司在做数据分析和做出商业决策时都需要对多个信息源进行整合。在整合的过程中,我们必须识别出表示同一实体的不同描述形式,以得到对象更为完整的信息。论文对此做了一些研究。⑶ 针对现有检测复制记录技术存在的不足,我们提出了利用Canopy聚类技术聚类复制记录的方法。由于大型数据不可避免的会产生一些错误的、不一致的、遗漏属性的数据,整合过程不能完全识别相同的实体,这就导致了复制记录的产生。而为了数据的一致性,我们必须检测出这些复制记录并删除掉。我们提出的方法分为两个阶段进行,首先用倒排检索方法得到一些大致的聚类,此阶段避免了用键值表示记录时,由于数据本身错误导致抽取的键值发生错误,最终得到错误的结果这种情况,同时选择键值是一个领域相关的问题,论文提出的方法不需要选择键值,是一种与应用领域无关的算法。第二阶段只针对Canopy内的数据记录进行精确聚类,使得算法在保证准确性的前提下,提高了效率。⑷ 现在的信息都是动态变化的,本文对这个问题提出了一些探讨,提出了一个有效的可扩展性算法,既可避免了重复的数据操作,又能自动地处理变化的情况。
关 键 词: 数据清洗 数据转换 聚类技术 合并 清洗问题 复制记录
分 类 号: [TP311.13]
领 域: [自动化与计算机技术] [自动化与计算机技术]