1. 研究目的与意义、国内外研究现状(文献综述)
在生存分析、医药追踪试验、可靠性与寿命试验等许多实际问题中,由于存在主客观条件的约束,得到的观测数据往往都不是精准的数据,而是小于等于或大于等于某个数值或者是介于某个区间段内的数据,这种不完整数据被称为删失数据。存在不同种类的删失数据,比如左删失、右删失和区间删失,另外删失又可分为固定删失和随机删失[1]。
在20世纪70年代末期,对于删失数据,dempster, laird和bubin提出了em算法。基于这个算法,bubin提出了通过模拟的思想实现了针对不完整数据的多重插补[2]。此后,bubin发表了这方面的一系列文章,将其整理出版成册,系统地归纳了多重插补法的思想。多重插补方法是目前处理缺失数据最有效的方法[3],其估计参数是无偏的,对于一些非正态分布数据,多重插补方法也是稳健的,受奇异值的影响较小,因此数据的正态性假设可以减弱,并且样本量较小时也适用,可以反映在模型中由缺失值导致的附加变异,増强了估计的有效性,而且能够在多个模型下通过随机抽取的方式进行插补[4]。
另外,分位数回归模型提供了一个半参数化的方法,它对误差项没有严格的参数假设,可灵活地处理解释变量与被解释变量之间的关系[5]。传统的线性回归模型一般都是使用普通最小二乘法来描述被解释变量的条件分布与解释变量的关系。最小二乘法是线性模型中最基本也是最常用的方法,体现的是解释变量对被解释变量的均值变化,通常在模型中需要假设随机扰动项是服从均值为零且同方差的分布[6]。但是,在实际问题中这些假设是经常难得到满足的,而为了弥补普通最小二乘法在回归分析中的不足和缺陷,koenker和bassett二人将均值回归模型扩展到了被解释变量的条件分位数回归模型,第一次提出了分位数回归的思想[7]。分位数回归是通过最小化残差绝对值的加权和来估计模型各参数的一种回归分析方法[8]。分位数回归弥补了普通最小二乘法在模型中具有异方差等情况下的不足,而分位数的稳健性能够保证分位数回归的稳健性,这一性质也弥补了普通最小二乘法在处理具有离群值数据时不够稳健的不足。在现实应用中,分位数回归可以更全面地揭示数据的信息,能够观察到被解释变量的尾部分布,从而弥补了最小二乘法只能估计被解释变量的分布中心趋势的不足。powell和portnoy二人曾将分位数回归技术应用到删失数据的处理上[9][10]。
2. 研究的基本内容和问题
研究目标:
通过借鉴前面学者已得到的知识与研究成果,针对有固定删失的响应变量,基于分位数回归技术进行多重插补,给出估计值,求出均值和均方误差。采用合适的数据进行模拟,比较使用该方法处理不同缺失率下删失数据所得到的均值与均方误差,判定该方法的可行性,并给出该方法在什么情形中对删失数据进行估计的效果最好。
研究内容:
3. 研究的方法与方案
研究方法:
1、仔细阅读相关资料,学习已有的方法。
2、自学相关统计软件的操作。
4. 研究创新点
1、针对不同删失情形,如一般分布误差项、异方差误差项、重尾分布误差项等情形以及有不同缺失率的删失数据集提出解决办法,具有一定的挑战性;
2、采用分位数回归技术与多重插补相结合的方法去插补那些被删失的数据。多重插补法提供若干个可能的数据,能够体现出缺失数据的不确定性,且能够模拟缺失数据的分布,很好地保持变量之间的相互关系,并给出估计结果的大量不确定性信息。而分位数回归模型提供了一个半参数化的方法,它对误差项没有严格的参数假设,可灵活地处理解释变量与被解释变量之间的关系,即使所研究的数据具有异质性,也能对其进行建模。5. 研究计划与进展
研究计划:
1、首先查阅相关文献,学习相关知识及求解方法。
2、针对拟解决的问题,进行分阶段学习,每一阶段完成论文一部分问题的学习与求解,并就所学内容做好归纳总结。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。