导 师: 左保河
授予学位: 硕士
作 者: ();
机构地区: 华南理工大学
摘 要: 近几年来,随着移动通讯行业的不断发展,运营商对客户的管理更加重视。根据相关研究表明,开发一个新用户的成本是挽留一个老用户成本的六倍。因此准确预测流失客户对运营商来说非常关键。目前,运营商已经积累了大量的用户信息和行为信息,电信大数据可以使客户流失预测变得更容易。但是总体来说,仍存在一下几个问题:数据体量庞大且来自异构数据源带来的数据完整性一致性方面问题;电信用户数据维度过高;且流失用户与非流失用户之间在数量上占比极不均衡。这给客户流失预测的研究带来了困难。在本次电信客户流失预测的研究中,针对以上问题,提出了如下解决方案:通过Apache Hadoop和Spark的分布式架构的大数据平台整合了来自异构数据源的电信运营数据;通过图论、自然语言、栈式自动编码神经网络等方法挖掘了电信用户大数据下隐藏的特征信息;对比了几种针对类不平衡数据集的采样方法和多种采样方式混合的方法;提出基于XGBoost的Bagging方法结合混合采样方法的融合模型,充分利用了不平衡数据集,构建了二分类模型对电信用户进行流失预测。最终在实验中,通过常用的模型评价指标精确率、召回率、AUC等,并结合流失客户挽留活动的期望利润验证模型的效果。更多还原
关 键 词: [311379]电信行业 流失预测 自动编码器 XGBoost 类不平衡
分 类 号: [F626;F274;TP311.13]