导 师: 陶志穗
学科专业: G0104
授予学位: 硕士
作 者: ;
机构地区: 华南理工大学
摘 要: 在数据处理过程中,时常会遇到不完整的数据集,为了更好地进行数据挖掘,我们有必要对数据进行预处理。本文从概率统计、粗糙集、神经网络的角度研究和探讨了缺失数据的多种填补算法,有效地解决了多种情形下的不完整数据集的完整化问题。 基于概率统计,首先介绍了应用较为广泛的一种处理缺失数据强有力的工具——多重填补,着重阐明了其中的mcmc方法的填补及统计分析过程,并用实例验证了该方法填补的准确度。多重填补法在综合统计推断中体现了由于缺失数据而产生的不确定性,克服了简单填补的主要缺陷。另外,作为一种新的方法,本文尝试将多元统计中主成分分析的理论与em算法相结合,以期产生较好的填补效果,实验也证明了这一点。 基于粗糙集理论的roustida算法,是在可分辨矩阵的基础上用相似对象的相应属性值来对缺失属性值进行填补,但可能在处理后,仍然面临信息表没有完整化的问题。为此,文章在roustida算法的基础上,对相似程度进行量化,扩充了相似对象集的概念,从而对算法进行了改进。改进算法对存在缺失数据对象是利用与该对象相似程度最大,即具有最强的缺失属性值填补能力的一个对象对其进行填补的,填补效率高、速度快。 由于人工神经网络具有很强的非线性并行处理能力以及一定的容错性能,使得神经网络运用于缺失数据填补成为可能。文章给出了几种特殊情形下的基于神经网络的缺失数据填补模型,并将粗糙集理论与bp网络结合起来,提出了一种新型的粗糙集神经网络模型,较好地解决了具有离散属性的不完备信息系统的完备化问题。至于其它情形下的缺失数据填补,要根据具体情况,选择合适的神经网络填补模型。 实际上,不存在可以适用于任何问题的缺失值�
关 键 词: 缺失数据 多重填补 粗糙集 神经网络 数据处理 数据挖掘
领 域: [自动化与计算机技术] [自动化与计算机技术]