导 师: 郝柏林
授予学位: 博士
作 者: ;
机构地区: 复旦大学
摘 要: 我们针对生物序列中短串组成的进化提出了一个试探性的概率模型,将序列之间短串组成的关联与序列分歧度联系起来。此模型解释了基于短串组成的系统发生方法的有效性,并被用来标度组分矢量方法(CVTree)的结果和估计其参数——短串长度K——的工作范围。它显示CVTree可以被推广为一族方法,并可由此使用更大的K值。我们发展了两组独立的距离估计方法,仅仅依赖于K串存在与否的信息,它们产生的系统发生树与当前的分类学知识高度一致。 在验证K串方法的过程中引发了一个问题,即序列能否从组成它的K串中唯一重建出来,它等价于有向图中欧拉路径的唯一性。可唯一重建序列构成因子化的正规语言。我们通过其最小禁止字充分刻画了该语言,并构造出接受它的确定性有限自动机。它为检验序列唯一重建性提供了高效的在线算法,并已被用于研究真实的蛋白质数据库。
关 键 词: 组分矢量 进化距离 进化树 序列重建 欧拉路径 因子化语言 最小禁止字
领 域: [生物学]