全文总字数:5942字
1. 研究目的与意义(文献综述)
一、课题研究背景
跨学科研究是近年来科学研究的热点之一,而生物信息学(bioinformatics)则是在跨学科研究领域具有广大前景和社会意义的一个分支,其核心是利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。目前国内外诸多高校都开设了生物信息学这一专业进行人才的培养,也有很多计算机科学专业的人士投入到生物信息学的研究中去,通过对生物学数据进行收集、搜索、筛选、处理、计算来研究生物学中的问题,而其中主要是针对基因方面的研究,例如序列比对、基因识别、基因重组等。我国对生物信息学领域的研究极为重视,先后启动了多个大型基因研究项目。2017年底,我国宣布启动“中国十万人基因组计划”,这是我国在人类基因组研究领域实施的首个重大国家计划,也是目前世界最大规模的人类基因组计划。按照计划,整个项目将在四年内完成全部的测序与分析任务,这也将是当前世界上推进速度最快的基因组工程。“中国十万人基因组计划”,最终将绘制完成10万人规模的中国人基因组图谱和中国人健康地图。一旦基因组图谱绘制完成,就等于彻底破译了中国人体内2.5万个基因的密码,中国人的疾病健康和基因遗传的关系将一览无余。2019年12月30日,中国科学院水生生物研究所等六家科研单位在武汉启动“万种原生生物基因组计划”(protist 10,000 genomes project, 简称p10k)。该计划将依托各发起单位保藏的3000多种株真核藻类和原生动物种质资源,通过持续的样品采集和宏基因组数据挖掘,在未来3年(2020—2022年)完成约一万种原生生物的基因组测序和分析,将包括原生生物全部26个门/类,覆盖超过85%的纲、60%的目和30%的科属。这一计划的开展将有助于理解生物多样性形成机制、多细胞生物/有性生殖的起源与演化等重大基础生命科学问题,促进国家科技资源共享服务平台信息互联互通,推动与生态环境保护、营养健康和疾病防治相关原生生物种质传资源的挖掘与应用实践。
基因数据处理有非常广阔的研究前景和价值,但同时也具有一定的研究难度和一些需解决的问题:需要分析处理的基因数据庞大,人类基因组有 2.91g 个碱基[1],而自从2001年第一代基因测序技术[2]产生以来,每7个月所有物种的总共基因数据都会翻倍,这远超了摩尔定律的速度[3]。对这些数据进行分析和存储,需要消耗大量的计算和存储资源来匹配,而第二代基因测序技术[4]和第三代基因测序技术[5]的产生和发展也对计算能力提出了更高的要求,从而出现了严峻的数据失配问题,即数据处理的速度已经满足不了数据产生的速度。因此通过研究基因处理中的算法并设计硬件加速策略成为了当前研究界的一大方向。而cpu由于其内部结构需要满足通用性,导致对某一特定任务的执行不能较大程度地优化存储和计算资源的使用,从而导致效率和能耗都不够理想,存在很大的进一步优化的空间。因此一种有效的研究思路是针对基因数据处理中通过数据流分析找出的计算瓶颈,设计并采用异构计算体系结构进行加速,即实现cpu fpga的协处理器架构,来提升基因数据处理的性能,实现耗时短、能耗低的目标。
2. 研究的基本内容与方案
2.1 研究内容及研究目标
本文的研究内容主要是通过cpu和专用的fpga相互结合调度来搭建一个专门的基因组装平台,来设计实现基因组装算法canu的加速器。canu 作为 celera assembler的后继,能够对两种不同的测序平台的数据进行处理,并且能够完成混合组装(nanopore pacbio)[13][14],且其组装性能较其前身已有数倍提升,如以组装一组人类基因为例,采用 celera assembler v8.2 软件需超过了 250,000 cpu 小时[15],而采用 canu 软件则需计算 20,000 cpu 小时[16]。但仅通过软件算法优化带来的速度提升仍不能令人满意,因此可尝试通过硬件加速架构的设计和实现来进一步提升性能。本研究主要通过对基因组装过程中的耗时算法及其数据流进行分析,找出计算瓶颈,设计出符合加速策略的fpga加速器,并尝试利用分布式计算平台调度部署相关的加速器件,通过对数据集进行测试及与传统的计算模式进行比对,得到cpu fpga这一异构架构对于基因组装算法的计算速度和能耗的提升结果。
3. 研究计划与安排
(1) 2019/1/22—2019/2/28:阅读相关文献,确定选题,完成开题报告;
(2) 2019/3/1—2019/3/15:继续阅读文献,翻译英文文献,利用分析工具对canu软件内部函数进行热点和数据流分析,学习verilog语言和fpga的使用;
(3) 2019/3/16—2019/4/30: 根据canu热点函数的特性,借鉴darwin项目中smith-waterman这一算法的加速策略并进行转化,同时结合fpga资源的特性,设计硬件加速方案;
4. 参考文献(12篇以上)
[1]venter,j. c., adams, m. d., myers, e. w., li, p. w., mural, r. j., sutton, g. g., ... gocayne, j. d. (2001). the sequence of the human genome. science, 291(5507),1304-1351.
[2]e.s. lander, l. m. linton, b. birren, c. nusbaum, m. c. zody, j. baldwin, k.devon, k. dewar, m. doyle, w. fitzhugh, et al. initial sequencing and analysisof the human genome. nature, 409(6822):860–921, 2001.
[3]z.d. stephens, s. y. lee, f. faghri, r. h. campbell, c. zhai, m. j. efron, r.iyer, m. c. schatz, s. sinha, and g. e. robinson. big data: astronomical orgenomical? plos biology, 13(7):e1002195, 2015.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。