帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于生成式对抗网络的缺失数据填充与预测方法研究

导  师: 赵跃龙

授予学位: 硕士

作  者: ;

机构地区: 华南理工大学

摘  要: 信息时代产生了海量的数据,这些数据中蕴含着许多有价值的信息,但也存在各种数据质量问题。由于在数据的获取、记录和保存的过程中,经常会发生部分数据缺失的现象,这些丢失了部分数据的不完备数据降低了数据的利用价值,所以它既给后续数据挖掘的过程带来了麻烦,同时也影响着数据用于进行指导决策的质量。因此如何有效处理不完备数据并且基于这些不完备数据进行高质量的决策研究有重要的现实意义。生成式对抗网络是近年来深度学习的热点研究方向,具有拟合高维数据分布的能力,因此本文采用该网络来学习缺失数据到完整数据分布的映射。本文主要对生成式对抗网络、高维度数据和高缺失率的不完备数据集的填充与预测方法进行了较深入的分析和研究,其主要工作和创新点如下:(1)研究了各种处理不完备数据的常用算法的适用条件和局限性。首先分析了不完备数据产生的原因、缺失机制和缺失模式,其次研究了大样本量下的数据缺失问题,然后分析了几种依托于深度学习技术的数据填充方法,最后分析发现大部分填充算法并未有效利用标签数据,也不能对大数量和高缺失率下的不完备数据集进行有效填充。基于此,本文提出了采用生成式对抗网络来解决以上问题的思想。(2)提出了一种缺失数据填充的生成式对抗网络MIGAN(Missing Data Imputation Generative Adversarial Nets)模型。MIGAN能对不完备数据集进行有效填充,同时协同训练的辅助预测网络使得填充结果与标签具有较好的关联性,本文在UCI的3个数据集和mnist数据集上进行了实验比对,实验表明MIGAN在不同维度和高缺失率的不完备数据集中和预测性能均好,尤其适用于高维度和高缺失率的不完备数据集的填充问题;另外从mnist数据集上的生成图片来看,MIGAN的生成结果具有较好的类别判别能力。(3)提出了一种半监督的缺失数据填充的生成式对抗网络semi-MIGAN(Semi-Supervised Missing Data Imputation Generative Adversarial Nets)模型来填充标签缺失的不完备数据集。本文在MIGAN的基础上进行了优化,提出的semi-MIGAN模型可解决不完备数据集存在标签缺失的特殊缺失问题,实验表明semi-MIGAN较其他方法具有更好的填充性能。更多还原

关 键 词: 生成式对抗网络 [8821557]不完备数据 MIGAN [2256924]数据填充 预测

分 类 号: [TP311.13;TP18]

领  域: [] []

相关作者

作者 张从毕
作者 李世琼
作者 李外香
作者 欧小波
作者 罗庆华

相关机构对象

机构 暨南大学
机构 华南师范大学
机构 中山大学
机构 华南理工大学
机构 暨南大学新闻与传播学院

相关领域作者