1. 研究目的与意义
1. 研究背景:基因是遗传的基本单位。
它决定了生物的性状以及生物的生长与发育,基因与疾病以及生理特征之间有着极密切的关系。
人类基因组计划的目标就是要阐明人类基因的全部序列,从整体上破译人类遗传信息,从而使人类可以第一次从分子水平上全面认识自身。
2. 国内外研究现状分析
目前国外非常重视生物信息学的发展各种专业研究机构和公司如雨后春笋般涌现出来,生物科技公司和制药工业内部的生物信息学部门的数量也与日俱增。
美国早在1988年在国会的支持下就成立了国家生物技术信息中心(ncbi),其目的是进行计算分子生物学的基础研究,构建和散布分子生物学数据库;欧洲于1993年3月就着手建立欧洲生物信息学研究所(ebi),日本也于1995年4月组建了信息生物学中心(cib)。
目前,绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3家数据库系统产生,他们共同组成了 ddbj/embl/gen bank国际核酸序列数据库,每天交换数据,同步更新。
3. 研究的基本内容与计划
1. 该基因信息爬取与分析系统主要需要实现的功能有:a) 针对NCBI数据库网站(https://www.ncbi.nlm.nih.gov/genome/browse/),在其中通过爬虫抓取细胞器(organelles)的相关数据,b) 抓取细胞器表格中叶绿体(chloroplast)、细胞质(plastid)以及线粒体(mitochondria)的所有数据,并从中提取出每条记录的RefSeq关键字,c) 利用爬取的每条记录的RefSeq关键字替换如下地址中的id后面的问号(http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore 第5-6周:确定系统所需的算法和确定结果保存数据库类型 第6-8周:完成算法设计和编码工作 第9-12周:进行程序测试,并在数据库中得到结果 第13-14周:完成毕业论文,准备毕业答辩
4. 研究创新点
1. 将ncbi上的部分植物细胞器的基因离线到本地,实现其科研价值。
2. 将genbank数据库格式转化为传统便于操作的数据库。
3. 用脚本程序实现批量转换,方便未来操作4. 减少了传统大量数据,大批量单个文件呈现数据时所耗费的时间。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。