帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

参考基因压缩库间快速迁移算法研究

导  师: 陈国良;罗秋明

授予学位: 硕士

作  者: ;

机构地区: 深圳大学

摘  要: 随着基因测序费用的降低以及精准医疗和基因深度学习等新兴技术对基因大数据的需要,目前已进入一个基因数据爆发的时代。面对如此海量的基因数据,如何存储和传输这些数据成为当前研究的一个热点,基于参考基因组的压缩算法以其压缩率高的特点被广泛应用于各大基因库中。同时,这类压缩算法依赖于参考基因数据,这也严重的制约了该类压缩算法产生的压缩数据的共享、合并和传送等应用。本文主要针对不同压缩基因库由于采用的参考基因的不同而无法直接共享的问题进行深入研究,提出了一套快速转换基于不同参考基因的压缩数据进行参考序列的转换。主要工作包括:(1)对多种基因压缩算法进行分类,针对不同的基因压缩算法分别讨论其特点。并对几种最新的基于参考基因组的压缩算法进行详细分析。(2)针对相同压缩算法不同参考序列的基于参考基因组的压缩算法进行快速的参考基因转换算法研究。该算法主要利用参考基因组序列之间的相似性来进行参考序列的快速迁移。实验结果表明迁移所需时间远低于原始的解压再压缩方法,同时也为后面的研究指明方向。(3)在(2)的基础上进行拓展,针对不同压缩算法不同参考序列迁移研究,我们选取三种压缩算法进行分析提取共性,并结合三种压缩算法的特点,在(2)快速迁移算法基础上提高迁移后压缩基因的压缩率,设计了两种迁移算法来实现三种压缩算法的相互迁移。并通过大量的实验验证了算法的高效性。(4)最后针对龙芯平台我们实现了一套完整的具备基因压缩、迁移和解压功能的基因数据管理工具TReC。并对其进行性能分析,然后通过多进程对龙芯平台上的TReC进行性能优化,使其能充分利用龙芯多核来加速TReC的运行速度。本文在基于参考基因组压缩算法过于依赖参考序列的基础上,提出了

关 键 词: 基于参考基因组压缩 数据压缩 参考序列转换 龙芯

领  域: []

相关作者

相关机构对象

相关领域作者