帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于Spark的航空常旅客流失模型研究与实现

导  师: 李拥军

授予学位: 硕士

作  者: ();

机构地区: 华南理工大学

摘  要: 随着旅游、商业的快速发展,航空数据的价值越来越大。航空数据的价值很大部分在于能分析出旅客的行为特征,而针对行为特征可以进行忠诚度高低的判断、流失与否的预测。本文旨在对南方航空公司的常旅客数据构建高效的流失模型并且将模型完整展示。航空数据量也随着技术、时代的发展而高涨,围绕航空大数据的挖掘技术发展也越来越快。现阶段常用的单机机器学习算法或者单节点的数据挖掘软件已经难以支持海量航空数据的挖掘分析,因此出现了Hadoop的MapReduce计算等分布式计算框架。而由于Spark兼容于Hadoop平台且计算性能和开发效率优胜于MapReduce等技术,所以Spark成为本文首选并行化计算框架。又因为单个算法模型存在效果不佳的问题,本文采取堆叠集成技术进行多个单模型融合,并且将该技术编入Spark源码中作为通用接口。最后,本文实现挖掘模型和展示系统的结合,将分析结果以多样化图表的页面形式展示出来。本系统主要分为离线模型和在线展示系统两个部分。离线模型针对南航流失模型业务的分析,按照原始数据分析、数据预处理、特征工程构造、特征分析、特征选取、模型训练、预测、评估、调参、模型融合的流程,来获取模型预判流失的人员记录,然后对这些记录进行聚类分析,更加清晰地分析出可能流失的人员的特征。采用Web系统结合报表技术,来对离线模型分析结果面向管理员进行展示和提供下载。本文的最后对整个系统的功能和性能进行了系统的测试,结果说明本文的流失模型及展示系统能有效预判流失且提供了直接、清晰的说明与展示。总的来说,将高效并行的且加以优化的机器学习技术应用于实际的海量运营数据分析之中,然后以C/S架构对分析结果进行用户友好型界面展示,符合信息产业的发展趋势和要求。

关 键 词: 机器学习 模型融合 报表技术

领  域: []

相关作者

相关机构对象

相关领域作者