基于NoSQL的细胞器基因组数据库构建方法研究开题报告

 2021-08-08 01:37:21

全文总字数:1342字

1. 研究目的与意义

在真核生物中,很多细胞器都有一套自己独立完整的基因组,这些基因组编码着与细胞产生能量相关的一系列的基因。由于核基因组的复杂性,基于全基因组的测序工作仅限于在基因组相对较小的模式物种。但是线粒体和叶绿体都有自己的遗传系统,它们的基因组与核DNA相比较小且序列变异相对迅速,使其在生物系统发育进化的研究中发挥着重要作用。

目前,生物学家已经测序出8000 个完整线粒体DNA和1600 个叶绿体DNA序列,除了病毒,细胞器DNA构成了最大规模的完全测序的基因组系列,这使它们成为比较基因组研究的理想材料。所以我们需要开发专门的数据库来对各种基因组测序项目产生的大量数据进行存储和管理。

随着测序技术的不断发展,被测出的基因组序列数量将会呈指数形式增长。另一方面,互联网应用通常并不强调数据的一致性,允许一定短时间的数据不一致,延迟插入等情况的出现。因此,与传统的数据库进行对比,在构建基因组数据库上,我们选用的具有高性能、高可扩展性、高冗余性能特性的NoSQL数据库更具有优势。

2. 国内外研究现状分析

目前,世界上比较流行的细胞器基因组数据库主要有 美国国家生物技术信息中心(NCBI)网站的细胞器基因组资源(Organelle genome resources at NCBI)、包含了所有已发表的线粒体和质体基因组编码的序列的数据库GOBASE、关于完全测序的质体基因组数据库ChloroplastDB和多细胞生物的线粒体基因数据库MitoZoa等

Google推出的用来处理海量数据分布式存储的BigTable,已经在60多个产品和项目上得到应用。2009年,NoSQL在国内开始兴起,新浪微博是Redis全球最大的用户,淘宝网使用HBase存储数据,并自主研发了支持大数据的Oceanbase来实现部分在线运用,视觉中国网站选用MongoDB替换了原来的MySQL]为其支撑数据库等。

3. 研究的基本内容与计划

1.该项目的研究内容主要有:

a) 提出新的基于nosql数据库的细胞器基因组数据存储解决方案,通过对nosql的现状研究、数据库特点及其理论基础探讨其在基因组数据存储方面可能的优势。

b) 以mongdb数据库为例,研究其自动分片集群的原理及其实现机制。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

1. 能够对呈指数形式增长的海量数据进行高效率存储

2. 是数据库具有高扩展性和高可用性,对数据进行实时处理。

3.对细胞器基因组数据的高效管理有效促进了生物遗传进化学的发展
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。