导 师: 姚正安;张磊
授予学位: 硕士
作 者: ;
机构地区: 中山大学
摘 要: 各大保险公司都建立了基于事务处理的保险业务信息管理系统,并积累了海量的客户数据.如何通过机器学习、智能计算、统计等技术对这些大量的客户付费历史、社会属性、人口统计信息及其它资料进行分析,针对“是否购险”为主题建立数据挖掘模型,以“识别”购险的潜在客户至关重要.本文针对一个来源于现实的保险数据集进行分析.客户购险预测的分析对象是“购险”和“没有购险”的客户,从以往客户的属性和购险记录归纳出“购险客户”的特征,然后“识别预洳”出“潜在购险”的新客户.这是一个典型的数据维数高、属性都多为标称型和序数型、不平衡的两类分类问题. 针对属性多为标称型和序数型数据的情况,本文对其进行了规范化处理;为了达到“降维”的目的,本文尝试了若干种有效的方法,如:属性数据关联分析、主成份分析;针对数据的不平衡性,本文采用了支持向量机(svm)的变种“one-classsvm”作为分类器,同时也尝试采用了“k-近邻算法(knn)”及其改进——“距离加权knn”两种分类器;针对主成份个数仍然较多的情况,本文采用了遗传算法进行特征二次选择;为了缓解两类数据的高度不平衡和样本严重混叠对分类器带来的负面影响,还设计了“训练集修剪”算法.于是,本文整合了上述方法,设计了“遗传算法特征选取+训练集修剪+分类器训练”的串联训练反馈系统.这是本文的一大创新点.实验表明,本文的方案切实可行,且对特定的问题和数据集取得了较为理想的效果.特别地,本文所提出的解决方案也具有一定的推广意义,可以为同类问题提供方法上的参考借鉴.
关 键 词: 客户识别 不平衡数据 遗传算法 支持向量机 数据挖掘 保险业务信息管理系统
领 域: [自动化与计算机技术] [自动化与计算机技术] [经济管理]