导 师: 石陆魁
学科专业: H1203
授予学位: 硕士
作 者: ;
机构地区: 河北工业大学
摘 要:
随着生物学中的基因微阵列数据呈现爆炸式增长,直接对这些海量数据进行认知变得越来越困难,这就出现了对能够从这些海量数据中探究其内在结构的机器学习方法的需求。如何对这些基因微阵列数据进行有效处理,提取出隐含在其中的有用信息成为数据挖掘、机器学习和模式识别等领域的核心问题之一。而流形学习作为一种非线性维数约简方法,能发现海量高维数据的内在规律,因而越来越广泛地被应用在模式识别等领域。本文主要研究如何将流形学习应用到基因微阵列数据分类中,研究内容包括以下几个方面:
1) 分析比较了典型的基因微阵列数据分类算法的效果。这些分类算法包括 K 近邻(K-NN)、朴素贝叶斯(NB)算法和支持向量机(SVM)算法。基因微阵列数据呈现出高维小样本的特性,往往存在着大量的与分类类别无关的特征基因,这些基因往往会影响分类结果。实验表明利用这三种分类算法对基因微阵列数据进行分类并不能取得令人满意的结果。
2) 介绍了一种将支持向量机递归消除(SVM-RFE)算法与典型的分类算法相结合来对基因微阵列数据进行分类的方法。该算法根据一种排列标准循环排除掉特征基因中类别依赖性最小的基因,最终得出一个特征基因子集,将该子集利用上述三种分类算法进行分类。与直接用上述三种分类算法相比,基于SVM-RFE算法的基因微阵列数据分类的精度有所提高。
3) 提出了基于流形学习的基因微阵列数据分类模型,该方法将流形学习与分类算法结合起来,先利用流形学习算法对基因微阵列数据提取特征,然后再利用分类算法进行分类。流形学习算法包括 LLE、ISOMAP、LE、LTSA和 HE 算法。同时,比较了该方法与上述三种分类算法和基于SVM-RFE的分类算法的效果,实验结果表明基于流形学习的基因微阵列数据的分类算法的分类精度优于上述三种典型的分类算法,与基于SVM-RFE算法相近,但其能对基因微阵列数据的本征维数作出估计,而SVM-RFE算法中基因选择的个数需要先验知识的指导,且算法复杂度较高。
分 类 号: [TP3 TP1]