超高维生存数据相关性排名筛查外文翻译资料

 2022-11-23 19:17:12

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


超高维生存数据相关性排名筛查

Jing Zhang, Yanyan Liu, Yuanshan Wu

武汉大学数学与统计学院,武汉,湖北,43007,中国

摘要

随着超高维数据的猛增,关于有效降低数据维数的筛选方法已经被大量研究。但是,常运用于临床试验和基因研究的在超高维场景下的删失生存数据却并没有被充分研究。本文提出了针对超高维生存数据的具有新特征的筛选步骤,同时建立了一致性排名和确定独立性筛选属性。与现有的方法相比,本文所提出的筛选过程对于已知或者未知响应的单调转换是不变的。此外,它可以方便地运用于删失率为零的超高维完备数据。仿真研究明,该方法同现有方法相比表现良好。最后,本文将该方法应用于套细胞淋巴瘤的研究中。

关键词:删失数据;无模型筛选;确定独立筛选;生存数据;超高维数据;

  1. 介绍

随着科学技术的快速发展,超高维数据可以以相对较低的成本收集起来,同时用于各个领域,如基因组学、成像学以及经济学。因为维度随着样本容量n的增加而快速增加,现有的惩罚变量选择方法,如最小绝对缩减和变量选择算子(LASSO,Tibshirani,1996),平滑修正绝对偏差(SCAD,Fan and Li,2001),自适应LASSO(Zou,2006),Dantzing选择器(Candes and Tao,2007)和极大极小凹罚点(MCP,Zhang2010)可能表现并不理想(Fan et al.,2009)

为了克服超高纬度,Fan和Lv(2008)提出了一种确定独立筛查(SIS)方法来减少线性回归模型的维度,由此惩罚变量选择方法得以应用。这种筛选方法在各种超高维领域都得到了广泛的研究,如广义线性模型(Fan and Song,2010)和增添模型(Fan et al.,2011)。此外,为了避免详述特定模型的结构,朱及其团队(2011)提出了一种在通用多索引模型框架下针对超高维数据的确定独立排名和筛选(SIRS)程序。李及其团队(2012b)提出了基于距离相关性的自由模型SIS程序。利用肯德尔系数,李及其团队(2012a)提出了转换模型框架下的强筛选方法。

针对删失超高维数据,范及其团队(2010)通过研究排名变量各自单变量的偏对数似然函数找到了适合Cox比例风险模型的SIS模型。基于Cox模型的标准边缘最大偏似然估计,赵和李(2012)提出了一种新的筛选法,同时给出了关于确定独立筛选属性的理论证明。为了放宽Cox模型的假设,Gorst-Rasmussen and Scheike (2013)提出了用于一类单指标风险率模型的筛选方法。基于肯德尔系数以及删失逆概率权重,宋及其团队(2014)提出了一个删失等级独立筛查模型用来展示强潜在极端值,同时这个模型可以用于一大类生存模型。吴和尹(2015)开发了一个用于识别响应条件分位数的协变量的筛选模型。最近,吴和朱(新闻报道)通过合并删失数据的逆概率,提出了一个适用于SIRS模型的检查版本。

在无模型的方式下,我们提出了一个新颖的相关排名确定独立筛选步骤(CR-SIS),它可以轻易处理超高维生存数据,除了Kaplan–Meier估计量不再需要其他非参数近似。同现在已有的程序相比,我们的方法具有独特的优点。我们的程序不依赖于任何模型假设,并能广泛应用于非线性生存回归模型。另外,我们的方法是根据响应单调变换下的不变式。这些优点极大地促进了已知模型在实际中的应用。

余文的组成如下:在第二部分中,我们提出了用于超高维完备数据和缺失数据的CR-SIS程序;在第三部分中,我们进行了此程序的理论证明;在第四部分中,通过大量的仿真研究,我们评估了它在有限样本条件下的表现;在第五部分中,我们将该方法应用于最近的套细胞淋巴瘤的研究中;第六部分是总结和结论。所有的技术证明都在附录中给出。

2.筛选方法

根据条件分布方程:

其中Y代表响应变量,是协变量向量。在一个超高维集中,维度主要取决于并极大超越样本容量n,可能会随着n的增加而呈指数增加。为了确定中的哪些协变量对于Z条件下的Y分布函数有影响,我们将有效协变量集定义为:

在不失一般性的前提下,在本文中我们假设令表示无条件下Y的分布函数。定义,令表示的第K个元素,,表示Z的第K个元素,定义:

其中,为人口边际效用函数的第K个协变量。

与 复合的无条件分布函数预计包含的全部信息。因此,衡量 与 相关性的能够反映出与的关系。如果与相互独立,与 也应为独立的,从而.另一方面,如果与相互独立,可以认为。在半参数回归的框架下,朱和其团队(2009)提出了利用协方差阵推导出的分布加权最小二乘估计量。我们提出的边际效用利用了这种思想。朱和其团队提出的SIRS模型采用了二分变量,而我们采用了包含所有信息的连续变量。与的相关性可以反映出的关系。此外,我们的方法。可以在不需要任何非参数近似值的情况下,仅依靠常规的 Kaplan–Meier 估计量就可以处理超高维生存数据。在后续的方法里我们可以看到,该方法具有排名一致性,同时在不同的情况下变现良好。

在人口总体中取一个随机样本,我们期望得到基于n个独立同观测的估计量。为了便于说明,我们假设样本预测都是集中的,即,其中表示的第k个元素。显然,我们可以使用经验分布函数,由下给定:

得到的估计值。因此,我们提出了的估计值,形式如下:

直观上我们可以看到,如果和Y是独立的,预计在零附近波动。如果相反,包含大量信息的是极其重要的。因此,我们定义估计活动集:

其中常数C和在第3节的正则性条件中已指定。

在考虑删失的情况下,我们将筛选过程扩展到超高维生存数据。观察的数据设为, C表示截尾变量。为了便于说明,我们假设审查机制是完全随机的,即截尾变量c是独立于响应变量Y和协变量Z的。

在截断的情况下,Y的累积分布函数的估计,可以从Kaplan-Meier估计公式中得出:

因此对的估计如下:

我们提出了从最大到最小的排名,并通过定义估计活动集选出顶部的活性因子:

3.理论性质

我们发现对于删失响应情况CR-SIS方法具有一定的独立筛选功能与排序一致性。对完全响应情况,这些属性可以被视为不重要的扩展。通过讨论,我们提出了以下规律性的条件:

C1.存在常数和使得:

C2.存在一个正常数使得:

C3.我们认为:

对于一些常数cgt;0以及成立。

在以为研究截止时间的生存分析中,条件C1是一个常见假设。这意味着,至少在截止时间时,某些项目并未失败,同时根据定义这被认为是在时右删失。条件C2保证预测值具有二阶矩并且有多种分布。条件C3保证针对积极预测的边际效用信息不会衰减太快。我们规定了CR-SIS方法针对超高维生存数据的确定独立筛选属性。

定理1:在条件C1和C2下,存在一个常数,使得:

在条件C1,C2和C3下,有:

其中是的基数。

令,。CR-SIS方法的排名一致性概述如下。

定理2:在给定条件下,假设和 是独立的, 是关于 独立的。在条件 C3下,可得:

当且仅当 。同时,在条件C1,C2和C3下,存在一个常数 使得:

这就奠定了本文的CR-SIS程序往往以上高概率将积极预测排名高于不积极预测的理论基础。

  1. 仿真研究

通过仿真研究,我们利用有限样本检测了提出的方法同时与现存方法进行了对比。为简便起见,我们将范和吕(2008)提出的确定独立筛选方法称为SIS,朱及其团队(2011)提出的确定独立性排序和筛选方法称为SIRS,李及其团队(2012b)提出的距离相关筛选方法称为DC-SIS,Gorst-Rasmussen and Scheike (2013) 提出的生存时间失常的筛选方法称为FAST-SIS,赵和李(2012)提出的原则性确定独立筛选方法称为P-SIS,宋及其团队(2014)提出的删失等级独立性筛选方法为CRIS,周和朱(待发表)提出的删失独立排名和筛选方法称为CSIRS。

例子1:首先,利用完备数据比较CR-SIS与SIS,SIRS以及DC-SIS方法的表现情况。此仿真模拟的设置同朱及其团队(2011)的样本1一样。这是一个有变化的多重相关系数和误差分布的经典线性模型:

其中,只有前五个预测是积极的。超高维变量服从均值为0、相关系数矩阵为的多元正态分布。我们设置,两个错误分布,标准正态分布和一个自由度为1具有重尾的T分布。在基础上,通过变化常数C的值来控制信噪比。我们选择了C = 0.5、1和2,与相应的。设置样本大小n=200,协变量为。对于每个配置,我们重复500次模拟。

为了评估筛选程序的性能,我们采用了三个评价标准(李及其团队,2012b)。首先,我们比较最小模型的大小,由表示,包括所有的积极预测。显然,可以测量每个筛选过程产生的模型的复杂性。越接近真实最小模型尺寸,越是好的筛选程序。在500次重复实验中,我们展示出的5%、25%、50%、75%和95%分位数。其次,对于500次重复试验给定的模型尺寸,我们指出每个积极预测的选择比例,由表示。第三,对于给定的模型尺寸在500次重复中,我们表示出所有积极预测预报因子的比例,由表示。有效的筛选程序应该能预测出接近真实最小模型大小的收益率,以及和应接近1。我们选择的估计模型的大小为,其中表示的整数部分。

、和的仿真结果总结在表1和表2。我们可以看到,本文提出的CR-SIS方法的结果与SIS方法相比,属于正常误差。然而,它在重尾误差均匀分布即使违背条件C2的情况下表现更优秀。与SIRS的方法相比,CR-SIS方法的性能在所有考虑到的情况下表现良好;他们都能得出比DC-SIS方法更令人满意的结果。

表格1

例1在500个响应中尺寸为的最小模型的五个分位点,真实模型尺寸为。

2005 年地方院校招生人数

ϵ

c

Method

5%

25%

50%

75%

95%

N(0, 1)

0.5

CR-SIS

5

5

5

7

28

SIS

5

5

5

6

16

DC-SIS

5

5

5

7

35

SIRS

5

5

5

7

36

1

CR-SIS

5

5

5

5

5

SIS

5

5

5

5

5

DC-SIS

5

5

5

5

5

SIRS

5

5

5

5

5

2

CR-SIS

5

5

5lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[26512],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。