导 师: 蔡瑞初
授予学位: 硕士
作 者: ();
机构地区: 广东工业大学
摘 要: 为了探索关于人类自身的编码而启动的人类基因组计划经过近三十年的努力已基本完成。随之而来产生了大量的生物分子数据,这些高维的数据内具有丰富的信息,其背后隐藏着人类尚未充分了解的关于自身的知识。利用数学、统计学与计算机科学相关方法帮助生物学家从海量信息中发现有价值的信息,促进人类医学研究领域的进步,这一迫切需求促进了生物信息学这一学科的快速发展。cDNA微阵列和寡核苷酸芯片等高通量检测技术应用至今已经积累了大量来自不同平台的数据,从现有数据中得到分类模式并应用于新的样本对基因表达数据挖掘工作具有重要意义。由于基因表达数据集的大都具有小样本,高维度的特性,在同一个平台上的少数样本数据相对于高维特征来讲是极其有限的。数据集样本数量的稀疏性在与特征的高维度性相叠加造成了维度灾难,导致难以从单个小样本数据集上提取鲁棒的关键信息。如果能够将GEO多个平台上的基因表达数据结合起来,通过增大样本数据量缓和维度灾难问题,这对于相关的研究工作是十分有益的。然而基因表达数据所涉及到的生物学实验是一个多步骤的复杂过程,由于其中生物样本的来源、芯片制作所采用的技术手段、设备标准的不同,多个平台的基因表达数据之间存在难以消除的系统性尺度差异。经典的归一化方法依赖于数据平台信息的统计量。本文针对分类模式难以在不同平台间迁移的问题,使用独立于平台信息的特征间相对表达关系作为模型的基础分类模式来适应跨平台基因数据的多样性,消除其平台特性造成的样本尺度差异进而推广相关研究工作的适用范围。更进一步,基于对特征对分类模型的非对称性分析提出了偏序模式作为基础的分类模式,构建能够引入更多规则的层级规则树分类模式来从样本覆盖的角度提升模型的分类性能。对于跨平台特性带来的大规模数据问题,基于分类规则为基因间相对大小关系的特性,本文设计了相应的数据转换和基于相对偏移的规则预筛选策略,来实现算法的快速挖掘。在真实基因表达数据集上的对比实验结果,验证了算法的准确度、稳定性以及高于现有方法两个数量级的运行效率,可以有效应对跨平台基因表达数据挖掘所带来的挑战。从高维数据中发现与数据尺度无关的模型算法的研究不仅可以应用于基因表达数据分类,在社交网络、推荐系统、金融分析等多个领域都取得了良好的效果。基因表达数据上的跨平台分类算法于上述领域的数据特性与研究与有很多共同之处,因此基于偏序模式的跨平台基因表达数据分类算法可以推广到更多的应用场景,有助于跨平台数据领域内的算法研究。更多还原
关 键 词: [5627794]基因表达数据 分类 特征选择 [5319825]跨平台 规则学习
分 类 号: [Q811.4;TP311.13]