导 师: 杜红丽
授予学位: 硕士
作 者: ();
机构地区: 华南理工大学
摘 要: 在分子生物学中,常用泛基因组来?述在一个进化分支下所有基因的集合。菌种的泛基因组的基因信息通常比单一菌株更为丰富,有助于其遗传多样性的研究。传统泛基因组研究工具主要关注基因含量,忽略了基因在基因组中的上下文信息;另外,现有可视化工具通常以线性方式对泛基因组进行展示,当进行比较的基因组数量增多时此种方法的展示结果可读性较差,且无法便捷地获取基因的生物学注释;此外,现有工具不能实现对数量庞大且不断增长的宏基因组测序数据进行有效挖掘。 为填补泛基因组研究中的这些空缺,本研究开发了一个泛基因组分析流程,可接受宏基因组组装序列作为输入,实现对基因信息及基因间连接关系的?取,并以参考基因组为骨架构建泛基因组网络,最后在网络数据展示平台中进行交互式可视化。本研究利用模拟数据对该流程的性能进行了评估。 将其应用于5个大肠杆菌病原菌株的分析,发现在编码外膜蛋白的基因簇上,不同菌株的基因序列或基因排列顺序不尽相同,在临床关心的H抗原和O抗原相关基因簇中基因多样性尤为明显。进一步将其应用于760个人肠道微生物宏基因组测序数据中,在得到的大肠杆菌泛基因组中,相应蛋白的多样性与5个单菌基因组的泛基因组相似,且更为复杂。前述两个泛基因组网络的H抗原基因簇中均存在功能未知的基因,预示其可能具有与该基因簇表达调控相关的功能。此外,本研究还发现可移动遗传因子在该泛基因组中的分布十分广泛,且其存在多具有菌株特异性。 相比传统工具,本研究得到的分析流程能够更好地组织、呈现泛基因组。首先,把基因间的连接关系囊括进泛基因组分析,有利于发现结构变异;同时可对未知功能基因进行定位,进而推测其可能参与�