导 师: 谢维信
授予学位: 博士
作 者: ;
机构地区: 深圳大学
摘 要: 高通量技术的发展产生了大量与基因、蛋白质和代谢相关的生物组学数据。从生物组学数据中发现和提炼与疾病相关的信息一直是生物信息学领域的热点问题。通过模式识别中的特征选择和分类技术,对高维生物组学数据中蕴藏的重要信息进行提取、筛选、识别和分类是分析生物组学数据的常用方法。生物组学数据具有的高维小样本、多类间样本分布不平衡等多种特征和样本统计分布特性,对特征选择算法在分类泛化性和稳定性等方面的表现提出巨大挑战,为了精确和稳定地提取与分类目标高度相关的特征子集,需要我们深入地研究和设计针对生物组学数据特征选择问题的新方法。本文针对生物组学数据的不同特性,提出了一系列集成特征选择算法,主要工作概括如下:1.在研究多种特征相关性度量的基础上,提出一种基于多种相关性度量的集成最大相关最小冗余(maximum Relevance and Minimum Redundancy,mRMR)特征选择算法。我们分析了最大信息系数、皮尔逊相关系数和互信息量在特征相关性度量方面的差异,并对前向搜索算法进行改进,增加可以设置所选择特征个数和搜索范围的机制,基于3种特征相关性度量和改进的搜索算法获得三组最优特征子集并进行集成分类学习。对不同类型的多组生物组学数据集的分类对比实验结果表明,集成m RMR特征选择算法能够针对各种类型的生物组学数据有效地选择最优特征子集,并有助于分类算法获得良好的识别性能。2.针对生物组学数据普遍存在多个最优或次优特征子集的情况,提出基于小生境二进制粒子群优化的集成特征选择算法。基于单一特征子集构建的分类模型在小样本生物组学数据上容易产生过拟合而影响分类泛化性能。为了尽量避免该问题,本文通过小生境二进制粒子群优化算法作为特征子集搜索算法,获得多�