帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

个人征信数据不平衡结构处理及特征选择

导  师: 吴池业

授予学位: 硕士

作  者: ();

机构地区: 暨南大学

摘  要: 本文数据来源为“东证期货杯”全国大学生统计建模大赛中选题二提供的贷款机构历史业务数据[1]。首先,针对数据缺失,对连续变量根据数据缺失率分别采用删除法和多重填补法处理,名义变量采用特殊类别法处理;在信用数据不平衡问题上,结合K均值算法欠抽样与SMOTE过抽样组合抽样方法在处理数据不平衡问题上有较好的预测效果。其次,在变量体系指标选择方面,改进了logistic回归的Lasso估计,采用四种信用评分模型对变量选择方法进行比较:针对不同模型特点,该变量选择方法对预测结果有不同程度提升。最后,经过实验比较可得,随机森林分类精度高;logistic回归总体分类精度略低于其他模型,但对于数据中少类样本的识别要高于一般模型;决策树模型分类精度略低于随机森林,但对数据中少类样本识别率不高。

关 键 词: 信用评分 变量选择 不平衡数据 随机森林

领  域: [] []

相关作者

作者 王和勇
作者 史学勇
作者 苏骏锋
作者 肖羽
作者 蒋苏萍

相关机构对象

机构 华南师范大学
机构 广州中医药大学经济与管理学院
机构 中国农业银行广东省分行
机构 华南理工大学
机构 华南理工大学工商管理学院

相关领域作者