1. 研究目的与意义、国内外研究现状(文献综述)
课题的意义:基因是支持着生命的基本构造和性能的基础,探究基因型与表型之间的关系一直是生物医学或生物遗传学所研究的重要问题。在现实生活中,尤其在医药领域,我们经常会遇到分类型数据,其中二分类数据占有很大比例。近年来,统计理论和计算机软件的飞速发展,使得越来越多的二分类模型及算法被提出,进一步开发更快捷、更具功效的二分类模型具有十分重要的意义。
国内外研究进展:目前较为流行的二分类模型为广义混合线性模型(glmm),它是混合线性模型[6, 7]和广义线性模型的推广,已有可行的求解算法被提出[1]。为了更好地将它应用在基因数据上,学者主要的研究热点有下述方面:1、与混合线性模型作比较,探究其在家族结构校正、解释异方差性和发病率差异等方面的功效,如gmmat[2, 8];2、改进模型求解过程,使得模型估计更精确有效,如带lasso惩罚项的glmm;3、着眼于glmm背景下统计量的开发,使其能够更好地探究单基因或基因序列与表型的相关性,如smmat[3, 4, 5]。尽管glmm模型已经具有可行的求解算法,且很多学者对上述问题进行了深入探究,但相比较于学者在混合线性模型上的研究突破[9, 10]来看,glmm模型从检测精确度还是算法结构上都可以继续优化下去。
该课题的研究有助于促进生物医学的发展,使得二分类模型在基因位点检测和疾病风险分析方面得到更好的实际应用,帮助科研人员和生物医学工作者更快捷、更高效地探索基因序列的奥秘。
2. 研究的基本内容和问题
本课题旨在研究如何更好地将广义混合线性模型(glmm)应用于二分类数据的基因位点检测中,探究其适用的生物学背景,并对算法结构优化,使得它能够更快捷、更精确、更高效地应用到生物的基因挖掘之中。
选取glmm模型的原因是因为它在处理二分类基因数据上有它特有的优势。众所周知,生物医学中的基因数据普遍有着“存在群体关联结构”、“基因位点存在连锁不平衡效应”、“数据海量且维数过高”等诸多特点,且对于二分类数据,还存在着“异方差性”、“发病率差别大”等特殊问题。
有研究发现,glmm模型在应用于二分类数据中时,相对于传统的混合线性模型(lmm)和广义线性模型(glm),可以有效控制家族相关结构、异方差性和群体发病率差异带来的影响。但是,glmm也存在着模型结构复杂、求解过程繁琐等问题,从而在一定程度上,阻碍了它在海量基因数据上的应用。
3. 研究的方法与方案
本课题采取的研究方法是:将理论推导与计算机模拟相互结合,借助矩阵论、概率论、统计学等数学理论知识,推导更加快捷的glmm模型估计方法,并利用r语言编写程序实现该方法,应用于不同生物情景下的二分类基因模拟数据和真实数据。
具体地,我们将采用下述的技术路线进行研究:1、查阅资料,总结已有glmm模型估计方法及其在二分类基因数据上的应用;2、从现有模型的弊端出发,对模型复杂性和检测有效性两个角度做理论改进;3、编写模型训练程序,使其能够应用于实际数据;4、模拟不同家族相关结构和发病率差异下的二分类基因数据,探究改进后的glmm方法的基因位点检测功效;5、将模型应用于真实的基因数据上。
试验方案是:以广义混合线性模型(glmm)和二分类基因数据为背景,推导更加快捷的glmm模型估计方法,并给出相应统计量。同时,利用r语言,模拟不同生物情景下的二分类基因数据,编程实现模型。最终,将结果可视化,展示优化后的广义混合线性模型在特定基因背景下对二分类性状显著位点检测的快捷性和高效性。
4. 研究创新点
本研究的特色及创新之处主要有:1、通过查阅资料,对现有的GLMM模型估计方法、相应检验统计量及其在二分类基因数据上的应用进行了学习和总结,从而能够更加精准地剖析其显著优势和不足之处,从而给出合理的改进措施;2、本研究灵活地使用R语言进行模拟实验,采取了理论推导与计算机模拟相互结合,有助于避免理论探寻的盲目性,并提到数学结果的实用性;3、以现实中生物学二分类基因数据的特点为导向,力求使改进后模型的快捷性和准确性得到提升,并具有更普遍的实用价值。
5. 研究计划与进展
本课题的研究计划及预期进展:
2020年1月至2020年2月完成下述三项工作:1、查阅资料,总结已有glmm模型估计方法及其在二分类基因数据上的应用;2、从现有模型的弊端出发,对模型复杂性和检测有效性两个角度做理论改进;3、编写模型训练程序,使其能够应用于实际数据;
2020年3月至2020年4月完成下述两项工作:1、模拟不同家族相关结构和发病率差异下的二分类基因数据,探究改进后的glmm方法的基因位点检测功效;2、将模型应用于真实的基因数据上;
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。