遗传数据压缩算法的研究开题报告

 2021-08-09 00:16:17

1. 研究目的与意义

遗传数据极其庞大的数据量和遗传序列存在字符重复的现象,从而导致在对遗传序列数据进行存储时需要较大的存储容量,并且由于其序列的重复性也会造成存储空间浪费的现象,随着各种测序项目的展开, 产生的序列数据量呈指数规模增长,如何以更低的成本处理快速积累遗传数据信息,在满足相关研究需求的同时有效减轻大量数据带来的存储与传输压力。

本毕业设计即是通过在掌握遗传数据特征的基础上,研究能够在不破坏遗传数据信息的前提下尽可能减少其存储空间的数据压缩算法。

2. 国内外研究现状分析

遗传序列数据压缩技术, 就是要寻找更为有效的压缩编码方法, 使用较小的存储空间存放日益增长的遗传数据及其相关数据. 与一般压缩有所不同的是,遗传数据必须使用无损压缩算法, 以保证原始序列数据的可靠性.由于遗传序列是符号序列和DNA序列具有一定的相似性,因此遗传数据的压缩可以借鉴DNA序列压缩的技术,早期的DNA序列压缩算法借鉴了许多传统文本序列压缩技术. 遗传数据例如1993 年由S. Grumbach 和F. Tahi 提出的BioCompress 算法及改进后的BioCompress-2 算法,以及1999 年由X.Chen 等人提出的GenCompress 算法等便是基于经典的LZ 系列压缩算法. 然而近年来随着已测定DNA序列数据量的急剧增加, 原有的压缩算法已逐渐遭遇性能瓶颈.压缩率提高不明显, 压缩成本大幅度增加等问题制约了遗传序列压缩技术的发展.现有的DNA序列数据压缩算法大致可以分为两类: 基于替代的压缩算法,和基于统计的压缩算法.遗传序列和DNA序列也有一定的区别,例如:DNA序列是一条长串字符串而遗传序列是多条短字符串,但遗传序列的多条短字符串存在着大量重复的部分而这也是我们在进行数据压缩时可以利用的。

其中,基于替代的压缩算法是建立在序列具有高度相似性这一特点上的. 由于遗传序列中存在着大量的精确重复片段,因此可以使用字典方法或其它更为简略的表示方式替代存储匹配的序列子串. 而遗传序列内有更多的近似重复序列, 则通过近似重复子串匹配以及残差编码的方式进行压缩处理. 现有的遗传数据压缩算法属于替代压缩算法.

3. 研究的基本内容与计划

研究内容:1遗传数据的格式和特征 2数据压缩技术3遗传数据压缩算法的效果比对 4遗传序列压缩技术 5 c 编程技术的应用 6eclispe集成开发环境的应用与调试。

研究计划:第1至2周:详细了解毕业设计项目技术背景及国内外相关研究的最新发展趋势,完成开题报告及文献综述;第3至5周:借阅学习相关书籍基本掌握遗传数据的格式及特征,复习巩固c 程序设计,安装eclispe集成开发环境并进行调试。

学习数据压缩技术,几种数据压缩算法的比较,参阅学习目前几种比较常用的遗传数据压缩算法第6至9周:具体算法实现、程序架构及内部代码实现、完成既定功能并通过测试;第10至14周:撰写毕业设计论文、准备答辩。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

遗传数据压缩问题随着存储硬件的快速发展已经得到了一定的缓和,然而随着测序问题研究的深入,单纯的依靠增加硬件设备无法满足要求,因此一个行之有效的数据压缩技术可以解决遗传数据对存储空间需求大的问题,也具相当的应用价值。

将已经比较成熟的数据压缩技术应用于相对较新的遗传数据的压缩是本毕业设计的特色。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。