1. 研究目的与意义、国内外研究现状(文献综述)
广义线性模型,即glm(generalized linear model),是一类有着广泛应用的统计模型,其模型特点是不强行改变数据的自然度量,数据可以具有非线性和非恒定方差结构。它是经典线性模型的自然推广,可适用于连续数据和离散数据,在实用上,尤其是医学、生物、保险和经济、社会数据的统计分析上[1],有重要的意义。由于广义线性模型含有许多有实用价值的模型以及它所具有的许多优良性质使其在实际问题中的应用越来越普遍,成为解决实际问题的有效方法。而通过此模型对离散型数据的分析,对离散型数据分析的速度与估计的准确度的提高有着重大意义。
从广义线性模型的个别案例的出现到如今已经有很长的历史,近几十年来,广义线性模型应用领域从最初nelder等提出针对属性数据问题进行解决分析[2],到对非正态与非线性模型的研究,再到关于其相关理论与方法的建立,再到后来wedderburn等对可用于纵向数据的广义估计方程(gee)与拟似然估计的提出[3],广义线性模型都在其中不断进行发展与完善。对于广义线性模型相关理论的研究,国内外也有不同程度的发展。对广义线性模型的研究大都集中在对其极大似然估计或极大拟似然估计的渐近性质的研究上,例如mccullagh对在自然联系情形下极大似然估计弱相合和渐进正态条件的给出[4]与张三国等对广义线性模型拟似然估计弱相合性的研究[5],比如wedderburn以及国内学者丁洁丽、高启兵等在自然联系的情况下对拟似然估计的强相合性的证明等[6-8]。而近年来,非自然联系情形下广义线性模型参数估计的渐近性质则越来越被广大研究人员所关注,如尹长明等对广义线性模型中极大似然估计的渐进性的进一步讨论[9]。广义线性模型的建立使得以统计方法为基础的各类学科获得了极大的发展,为经典线性模型不适用时的问题研究提供了有力的理论支持,拓宽了线性模型的研究领域。
广义线性模型应用领域的广泛,决定了其在不同社会领域如经济,社会,医学生物等数据的统计分析上有重要的意义。广义线性模型特别适用于离散型数据的分析,如计数数据,属性数据等。广义线性模型作为经典线性模型的推广模型,相对于经典线性模型中因变量的假设必须为正态假设,其响应变量的假设放宽为具有散布参数的指数型分布,这使其实用性极大的得到扩展[10]。例如医学中某病的发生率,利用对不同症状,不同类别的病例分别作为离散型数据进行处理,进而结合医学中病例对照的统计方法研究发病率以及发病因素的影响。种群生态学中的种群增长率等都可以使用广义线性模型进行拟合,种群类别,种群分布范围与环境条件往往趋于离散型数据的特征,因而通过广义线性模型可以较为方便直观的对与种群增长率一系列相关的因素进行快捷分析。其在离散型数据上的应用分析,也可以使其在实际生活中的应用价值得到体现,在金融行业、卫生健康、公共安全、投资理财等领域都有积极的影响。如在精算学中生命表的修匀、损失分布、信度理论、风险分类、准备金和费率等一系列离散型数据的研究中,广义线性模型也通过重点分析利率厘定和准备金估计等原则利用广义线性模型进行建模,从而实现一系列相关领域中离散型数据的分析。广义线性模型所提供的统计推断功能,有助于挑选重要的变量并且从中确认模型的假设条件,建立更多有实用价值的模型,进而更有效的解决实际生活中的问题,对生产活动的不同方面均有着理想的发展前景。
2. 研究的基本内容和问题
1、研究的目标
通过利用广义线性模型对离散型数据进行分析,最终实现以下预期目标:
①利用glm函数对不同分布(正态分布、均匀分布等)产生的离散型数据进行训练。
3. 研究的方法与方案
1、研究方法
①查阅文献法。通过查阅相关国内外文献了解相关广义线性模型的资料与其在离散型数据分析领域的应用文献,通过文献内容学习相关知识,帮助自己在课题研究中更加顺利的理解与完成毕业设计。
②数学建模法。通过统计软件如r语言等统计分析软件,进行广义线性模型的模型建立,模型评估以及之后的变量筛选等。
4. 研究创新点
1、本人身为统计学专业学生,曾经学习接触过广义线性模型的相关知识。本选题无论是广义线性模型的研究方法还是对于离散型数据的分析,都可以充分利用所学知识,结合查阅资料或求助教师等方式,来推进课题研究进度的完成,充分利用自身所有本领来完成课题。
2、目前广义线性模型在数据分析领域有着广泛的应用,广义线性模型在各统计软件上的计算机语言与算法也相对成熟,但其在对离散型数据分析的相关领域的介绍与研究相对较少。本课题通过利用r软件等统计软件,利用广义线性模型,对离散型数据进行比较详细的分析与优化。
5. 研究计划与进展
总体计划研究时间为2020年1月至2020年6月,具体计划如下:
2020年1月-2020年2月
确定研究课题大体方向,利用校园图书馆查阅有关离散型数据分析的相关书籍,查找有关离散型数据如属性数据,分类数据等分析方法的相关文献,研读学习后筛选出可用于glm分析方法用来分析的数据类别。同时开始通过r语言等相关统计软件开始学习glm分析方法,初步掌握其在计算机上的使用,了解运行代码。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。