1. 研究目的与意义
目的:本课题利用GenBank数据库中大量的桉树EST序列数据,通过聚类、拼接和多重比对等生物信息学分析手段识别新的桉树候选SNP位点。
意义:单核苷酸多态性(single nucleotide polymorphisms, SNP)是生物基因组中最常见的遗传变异。目前在生物基因组中搜寻SNP最常用的方法是基于生物信息学对已定位的表达序列标签(expressd sequence tag ,EST)进行再测序。基于EST发展起来的单核苷酸多态性分子标记(ESTSNP)在遗传图谱构建、重要性状基因定位、比较遗传作图、遗传多样性分析和品种鉴别、分子标记辅助选择育种等方面发挥了重要作用。在人类基因组中现已发现了多达百万个SNP, 这些SNP被广泛地应用于全基因组疾病关联分析。林木基因组中也存在着大量的SNP位点,但是到目前为止只有少量的SNP被发现,如何利用现有的数据资源快速有效地识别大量的林木SNP,以便进行林木全基因组与数量性状的关联分析有着及其重要的意义。桉树是主要的工业用材树种。进行桉树SNP候选位点的分析和识别,进一步进行功能基因的挖掘、克隆和功能的研究,是当前桉树基因组学的首要任务之一,不仅可为桉树品种改良和基因资源的有效利用奠定基础,而且对探讨林木的生理及遗传特性分子机制也具有重要的理论意义。2. 国内外研究现状分析
1.schmid等(2003)对拟南芥的10,706条 ests序列,606条stss序列,进行 分析发现了8051个snps位点,和637个插入/缺失(inde1)多态性位点。
2.澳大利亚联邦科学与工业研究组织(csiro)组装了321,000条牛est和mrna 序列,构建了29965个重叠群,并将所发现的snps位点构建snps数据库(http://www.1ivestockgenomics.csiro.au/ibiss/)(hauken等,2004)。
3.kim等用phred/phrap/polyphred/consed软件包对鸡的23,427条est序列进行组装,共发现了1210个候选的snps位点,其中35%为nssnps位点(非 同义突变snps)。
3. 研究的基本内容与计划
内容:从ncbi数据库中下载已知的桉树est序列,在linux操作系统下利用est-snp分析软件对est序列进行预处理、聚类拼接,得到完整基因序列。利用snp分析软件进行分析,识别est-snp位点。
计划:第1步: 登录ncbi网站,下载桉树已知est序列。
第2步: 在 linux操作系统下,利用cross match工具进行est序列预处理,除去ncbi数据库中载体序列和一些过长重复序列片段。
4. 研究创新点
本研究基于数据库中的est序列对目前桉树基因组的研究是一个很好的资源补充。
在snps标记开发的初始阶段,利用生物信息学这一强有力的工具有助于减少实验室工作的盲目性,从而节省实验时间和经费。
snp在人类基因组的研究中应用较为广泛,在植物中展开snp广泛研究的种类较少,在林木以及桉树方面的研究应用则甚少。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。