1. 研究目的与意义、国内外研究现状(文献综述)
意义: 真核生物基因组由大量的重复序列组成,转座子(transposable elements, te)是重复序列的主要类型[1]。根据转座子的换位机制,可以分为两类,第一类是rna介导类型,第二类是dna类型[2-4]。其中,第一类rna介导类型能够造成植物基因组的大量扩增。第一类转座子因为包含了从dna反转录到rna的反转录过程,又被称为反转录转座子(retrotransposon),进一步根据长末端重复序列(long terminal repeat, ltr)的有无,可以把逆转座子分为 ltr-逆转座子和非ltr-逆转座子[1]。一个完整ltr-rt由以下几部分组成:一对序列同源的长末端重复序列(ltr),一个引物结合位点(pbs),一个多嘌呤序列(ppt),还有与转座子转座有关的 gag、pol 和 int酶序列,以及转座子两端的5-bp长度的靶位点重复序列(target site duplication, tsd)[5]。根据蛋白质编码序列中int基因序列的位置,可以分为tyl-copia 类转座子、ty3-gypsy 类转座子[6]。在植物基因组中,逆转录转座子占比很高,比如在玉米中比例为75[7]、马铃薯中比例为56[1]。转座子的活动会导致宿主染色体变异,基因突变以及自身转座活性的变化[6],对于植物的抗逆胁迫和进化有积极的作用,有利于植物适应外界环境变化。菊花(chrysanthemum mifolium ramat.)是中国十大传统名花与四大切花之一,是主要的观赏经济作物,利用菊属植物的多倍性,二倍体菊属野生材料菊花脑(chrysanthemum nankingense)的测序结果能够为菊属植物基因组结构的解析提供基础[8]。使用菊花脑基因组的ltr-rt分析结果,来研究其基因组中ltr-rt的比例及种类组成,能够从全基因组水平上体现菊属植物的进化特性,并为今后菊属基因组学的研究提供一定的参考。国内外研究进展: 目前对于全基因组水平上的ltr转座子注释,主要是使用生物信息学软件对已测序完成的全基因组序列文件进行分析。ltr-rt分析软件根据其原理可以分为两类相关序列保守区域识别鉴定和序列比对分析[9]。一种常见的流程是用ltr_struc[10]结构分析软件寻找完整结构的转座子,然后用序列比对软件比对全基因组序列。这种方法虽然成熟,但是ltr_struc基于windows平台,其扩展性和运算潜力有着很大的限制,因此越来越多的ltr-rt注释软件基于linux平台进行开发,ltr_finder[11]和ltrharvest[12]虽然基于linux系统开发,相较于ltr_struc敏感度更高,但是却产生了过多的假阳性结果[5]。 ltr_retriver[5]基于perl编程语言,结合ltr_finder和ltrharvest的结果进行分析,得出的结果大大减少了假阳性出现的概率,经过测试其灵敏度、准确性、特异性都显著高于前三者。使用ltr_retiever得出的基因组ltr-rt注释文件,理论上有很高的研究价值。
应用前景:
2. 研究的基本内容和问题
目标:使用LTR_retriever软件对菊花脑基因组完成LTR-RT注释工作,获得菊花脑LTR-RT数据库,并分析输出文件得到初步的进化分析结果。内容:(1)得到菊花脑基因组的全部LTR-RT和完整LTR-RT的fasta数据库,分析其在菊花脑基因组中的比例以及种类分布。(2)计算所有完整转座子的插入时间,然后对Gypsy和Copia类型的转座子分别计算其插入时间。(3)对生成的LTR-RT进行家族分类,对数目排名靠前的家族的各种特性进行分析。拟解决的关键问题:(1)生物信息学软件LTR_finder、LTRharvest、LTR_retriever的熟练使用。(2)对于LTR_retriever生成结果文件的提取分析。(3)对于菊花脑基因组LTR-RT的进化分析。
3. 研究的方法与方案
研究方法:
(1)文献研究:分析国内外已有的植物ltr-rt领域上的研究进展及其实验方案流程,综合考虑多种软件的利弊,选择最适合的实验方法。
4. 研究创新点
特色或创新之处: LTR_retriever是发表于2018年的开源软件,其最大的优点在于结合了LTR_finder与LTRharvest等软件的输出结果,去除了冗余结果与假阳性结果,使得实验的准确性、灵敏度、特异性都大大提高。其软件最大的优点还是在于其生成的高质量LTR-RT数据库。但是其短板也十分明显,不同于发表于2003年的LTR_STRUC软件的流程那么成熟,程序有的地方存在缺陷,需要自己动手解决问题,因此具有较高的挑战性。
5. 研究计划与进展
研究计划及预期进展:2020年2月--2020年3月阅读国内外对于长末端重复序列反转录转座子(LTR-RT)的研究报道,比较各个LTR_RT分析软件的优劣,选择基于linux系统且适合本研究的开源软件。2019年3月--2020年4月确定合适的软件,以菊花脑基因组测序文件为实验材料,得到初步的实验数据,然后使用python编程语言创建LTR-RT的序列数据库。2020年4月--2020年5月中旬对实验数据进一步进行统计分析,获得插入时间、亚家族分类等实验结果,作图并得出实验结论。2020年5月中旬--2020年7月 完成毕业论文的初稿,多次修改后定稿,完成本科毕业论文参加答辩。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。