导 师: 林丕源
学科专业: L01
授予学位: 硕士
作 者: ;
机构地区: 华南农业大学
摘 要: 在研究现有的DNA序列数据压缩算法的基础上,本文以DNA序列数据的存储效率与直接检索速度综合考虑,设计并实现了称为DNACS(DNACOMPRESSIONANDSEARCH)的算法。它包括了DNA数据压缩(含解压缩)算法和非解压直接检索算法,分别用于解决存储效率和提高检索速度的问题。DNACS算法的核心是四个方面:重复子串字典建立、字典项筛选、字串压缩编码及非解压检索压缩数据。 本文所涉及的主要内容包括:(1)认识生物信息学及关注DNA数据压缩。(2)研究DNA序列数据已有的压缩算法。(3)描述DNACS算法的总体结构。(4)设计并实现DNACS压缩算法。(5)设计并实现DNACS非解压检索算法。(6)对DNACS算法进行实验及评价。 总之,本文引入“非解压检索压缩数据”的思想,结合传统字典压缩算法技术,搭建DNACS算法框架并进行程序实现。实验数据表明,DNACS算法数据压缩算法压缩效果达到常用DNA序列压缩算法水平,非解压检索算法搜索速度也优于普通模式匹配算法。
分 类 号: [TP274.2 Q523.8]
领 域: [自动化与计算机技术] [自动化与计算机技术] [生物学]