导 师: 吴永贤(Wing W.Y.Ng)
授予学位: 硕士
作 者: ();
机构地区: 华南理工大学
摘 要: 随着人工智能研究与应用的快速发展,机器学习越来越广泛地被应用到生活和生产各个领域上,提高了人们生活质量和生产效率。在实际环境的机器学习过程中,经常会遇到数据的不同类别样本分布不均匀的现象,称之为不平衡数据问题。由于样本分布不均匀,在不平衡数据下的分类问题中,分类器以最小平均损失为优化目标,容易造成分类器预测标签倾斜向多数类,从而影响分类器的实际使用价值。目前解决不平衡数据分类问题的方法主要有基于重采样和集成学习、基于代价敏感等方法。基于重采样的方法简单、独立于分类器,但随机性大,容易造成样本重要信息缺失或样本空间重叠造成过拟合。重采样结合集成学习,能降低重采样造成的扰动,提高在不平衡数据上的分类性能。基于代价敏感方法简单直观但难以定义合适的代价损失函数。事实上,分类器在于数据分布边界清晰的不平衡数据也可得到较好的效果,而面对数据样本空间重叠、特征不明显的不平衡数据时,通过特征学习得到的特征,若能够提供清晰的分类边界,那么重采样就不一定是必要的,因而也可以从特征的角度出解决不平衡数据分类问题。本论文从特征的角度去解决不平衡数据的分类问题,提出了双层叠自编码特征,通过两个独立的用不同激活函数激活的层叠自编码器生成两套特征,两套特征由不同激活函数激活的层叠自编码器得到,分别捕获了原数据较为全局、稳定和局部、细节的特征。两套具有不同特性的特征组合起来,具有更好的表达能力。样本经过双层叠自编码器生成的特征,从原来的特征空间转换到新的特征空间进入分类器,分类器从而更容易获得合理的分类边界。四个不同的实验,对比了双层叠自编码特征和使用单一的激活函数的单个层叠自编码器的特征、其他基于重采样和集
领 域: []