导 师: 邹小勇
学科专业: G0302
授予学位: 博士
作 者: ;
机构地区: 中山大学
摘 要: 随着人类基因组计划的顺利完成,以及现代生物科学和技术的飞速发展,每天都有海量的蛋白质序列数据不断地涌现。如何揭示这些数据的内涵,提取有用的化学与生物信息,已经成为化学计量学和化学信息学的研究热点。虽然可以通过实验的方法确定蛋白质的结构和功能,但是实验方法既费时又费力,并且已知序列与已知结构和功能的蛋白质数目之间的差距越来越大。因此,从蛋白质序列出发,发展自动、可靠的理论和计算方法预测蛋白质的结构和功能具有十分重要的理论和实际意义。 本文立足于大量的生物信息数据,将化学计量学中的支持向量机、遗传算法、小波变换以及主成分分析等方法应用于化学生物信息的处理,提出了一系列的蛋白质结构和功能预测新方法,其主要内容如下: 1.建立了基于遗传算法与支持向量机耦合的蛋白质结构类预测方法。基于信息融合的思想,利用改进的遗传算法同时优化支持向量机的核参数和用来表征蛋白质一级结构的描述符子集。对包含204个非同源蛋白质的c204标准数据集进行了预测,jackknife交叉验证的总精度达到了99.5%,并且对于较难预测的α/β和α+β类蛋白质预测精度分别达到了97.8%和100%,明显优于文献报道值。结果表明:本文提出的方法能够有效的提高蛋白质结构类的预测精度,并且有望用于蛋白质其它属性的预测。 2.提出了新的伪氨基酸组成表示方法。基于连续小波变换的时域和频域分析特性以及主成分分析的数据压缩和特征提取性能,首先用氨基酸残基的各种物理化学性质参数将蛋白质序列映射为数值序列,然后进行连续小波变换,计算小波功率谱,最后利用主成分分析技术对小波功率谱进行数据压缩,并与氨基酸组成相结合,构成伪氨基酸组成表征蛋白质一级结构