大西洋热带气旋强度变化的关联规则数据挖掘应用外文翻译资料

 2022-11-23 19:16:20

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料


大西洋热带气旋强度变化的关联规则数据挖掘应用

Ruixin Yang,Jiang Tang,和 Donglian Sun

地理与地理信息科学系,理学院,乔治梅森大学,Fairfax,Virginia

(2010年9月17日收到的稿件,最终形式是2010年12月24日)

摘要

本研究将一种关联规则挖掘技术应用于北大西洋热带气旋(TCs)强度变化分析。“跟踪”的数据来自美国国家飓风中心和统计飓风强度的预测方案数据库,种数据库被分为热带低压、热带风暴、飓风和1类–5根据萨菲尔–辛普森飓风规模。分层后,导致七组TCS加上两个额外的聚合组进一步分为强化、弱化、稳定的TCS,预处理显示更快向北风暴运动分层数据分析(经向风暴运动的组成部分)有利于热带风暴加剧,但不利于集约化的飓风。加强热带风暴与高层大气中更高的收敛更强烈相关(200-hPa相对涡流动量通量辐合)比减弱的热带风暴,同时加强飓风下收敛值密切相关。挖掘的关联规则发现的辅助因子通常显示高强度的预测能力在分层TC组。数据挖掘结果还确定了一个预测因子集,但提高了快速强化的概率。这项研究发现,数据挖掘技术不仅揭示的多个相关的物理过程在热带气旋的发展尤其迅速激化的过程,但也将有助于提高TC强度预报的作用。本文提供了一个概述如何使用数据挖掘技术和如何解决出现的低开采条件,为了提高TC强度预报能力。

  1. 介绍

热带气旋(TC)是世界上最昂贵的自然灾害之一。准确地预测TC跟踪和强度可以减少这些风暴造成的潜在损害。虽然台风路径预报有较高的技能,TC强度的预测仍然是一个挑战(DeMaria等人。2007;富兰克林2008;拉帕波特等人。2009)。

TC强度预报难度实际上反映了许多因素控制TC强度变化(DeMaria等人。2007)。广泛的研究已经有利于热带气旋发展的因素进行的。这些包括海洋暖涡(Shay et al.。2000;洪等人。2000;吴等人。2007)、外眼壁的收缩(威洛比等人。1982;Willoughby和黑1996;李和贝尔2007),一个环境低的垂直剪切(灰色1968;美林1988;德马里亚和卡普兰1994;DeMaria 1996;弗兰克和里奇1999, 2001;曾等人。低的垂直剪切(灰色1968;美林1988;德马里亚和卡普兰1994;DeMaria 1996;弗兰克和里奇1999, 2001;曾等人。1993;bosart等人。2000)耗散的热量(靳等人)。2007)、云微物理(王2002a),和同位素浓度(gedzelman等人。2003)。

TC强度变化研究的方法最初集中在个别TC病例。所谓的案例研究的方法仍然是研究促进TC成因、形成机制的重要策略,强化(例如,bosartetal。2000;zehr2003;mctaggart-cowanetal.2006蒙哥马利等人。2006;lowag等人。2008)。案例研究还包括数值模拟与特定的初始条件和环境条件,如飓风邦尼(1998)的数值模拟,罗杰斯等人。(2003)朱等人。(2004),朱和张(2006)。(2007)等人。数值模拟也可以用于研究孤立的因素如海洋喷雾蒸发的影响(wangetal。2001)和罗斯贝波(王2002b)对热带气旋强度与结构。

由于数值模拟用于理想设置的一般因素,综合分析已成为识别影响TC强度变化的共同因素和理解在现实情况下的底层物理按键的方法(例如,Hanley等人。2001;纳夫等人。2004, 2008;zehr和纳夫Camargo等人2007。A,B;Ventham和王2007)。复合分析方向的进一步发展是TC强度统计预报模型的发展,这种模型的成功范例是统计飓风强度的预测方案(SHIPS)TC强度预测模型,并通过线性回归分析得到一组选定的参数(德马里亚和卡普兰1994a,1999;DeMaria等人。2005)。SHIPS及其变体用于TC强度预报国家飓风中心的主要统计模型(NHC)目前,平均而言,提供最佳的预测能力(富兰克林2008)。SHIPS使用一组预测因子(参数-因子)来表示影响TC强度变化的大多数环境因素。SHIPS的派生参数已用于建造SHIPS数据库。科学家们使用这个数据库对于TC快速增强的概率研究(RI)(卡普兰和迪马利亚2003;杨等人。2007, 2008;卡普兰等人。2010)。

TC强度变化的综合分析通常以传统的统计分析方法为基础,广泛应用于TC强度变化如强化或快速强化和环境特性之间的联系。这一统计分析可以看做是一种“一对一”的关系分析技术。

相反,近年来,“多个一”数据挖掘技术已经成为一种广泛使用的方法,因为它们涉及到广泛的(有时穷尽)在海量数据中隐藏的关系搜索。例如,相比于一对一的关系分析,关联规则挖掘技术,从数据挖掘社区可以详尽探索在多个条件协会因为方法自动检查所有可能的组合频繁条件集在一个大的、预定义的数据集(Agrawalet al。1993)。这种数据挖掘技术为科学家提供了一个全面的数据集,并使他们能够通过一种理论驱动的分析方法来检测可能错过的多种条件之间的连接。

本研究的主要目的是运用关联规则挖掘技术作为一种“unsupervised”和“自动”数据探索方法探索多对一关联大量的地球物理特征与强化,减弱、稳定或迅速强化TCS。数据挖掘结果可以揭示TC强度变化的基本物理机制,并为TC强度预测提供指导。使用关联规则挖掘技术,参数进行了类似于一对一分析的阈值确定过程。从这个预处理的有趣的结果也包括在本文中。本文的其余部分概述如下。在第2节中,介绍了本研究的数据集(包括SHIPS模型中使用的参数)和关联规则数据挖掘概念。TC分层,数据离散化,一对一数据离散化(预处理)和相应结果的数据分析在第3节中讨论。在第4节中考虑分层TCS的关联规则。第5节描述了快速强化研究的结果,这是主要来源之一。第6节讨论了挖掘关联规则在TC强度变化研究中的潜在应用,并概述了如何使用数据挖掘技术提高TC预测能力。

  1. 资料与方法

本研究的数据集的NHC的北大西洋飓风数据库(HURDAT)文件(Jarvinen等人,1984)和1982艘–2003数据库(DeMaria等人。2005)。关联规则的数据挖掘技术(Agrawal等人。1993)和软件实现通过borgelt(2009)应用于这些数据集。

a.NHC最佳路径资料

大西洋盆地最佳的跟踪数据是ASCII(文本)的中心位置和强度的6小时的文件(最大1分钟表面风速节)所有的热带风暴和飓风从1851到现在(Jarvinen等人。1984)。最大风速估计的标称精度为5千吨(2.6米每秒)。在这项研究中使用的最佳轨道数据集获得TC位置和强度变化值。

b.SHIPS 2003数据

SHIPS 1982 - 2003数据库包括1989至2003年间在大西洋盆地发生的219次热带风暴个例的所有资料。另外,该数据库还包括59个1982至1988个风暴案件。每一个风暴,数据文件包含29个坚持,气候和天气参数收集风暴寿命期间除了当风暴轨迹越过土地(DeMaria和卡普兰1994a,1999;DeMaria等人。2005)。对于1997–2003, 21预测期间中使用的船只模型(DeMaria等人。2005)。

表1 选定的参数研究。普通字体显示的条目是在SHIPS数据库给出的值的参数,并用粗体显示的条目代表派生参数的值应估计。斜体的项目是简单的计算值的参数。星号(*)项是用于研究RI的11个参数。最后三个参数只用于RI研究。

本研究选取了1997—2003年间舰船上使用的21个参数,对分层TCS中的强化、弱化和稳定规则进行了研究。此外,风暴的运动,包括在基线统计lhurricane强度预测子午分量(shifor)模型(Jarvinenand Neumann 1979)被选为第二十二参数。表1列出了这22个参数和它们的缩写名称以及三个用于快速强化研究的附加参数。

这些参数的大部分值直接在SHIPS数据库中提供。四人的价值观(jdat,jdte,pot,和TEFC)是来自于相同的程序在SHIPS模型的直接价值(DeMaria等人。2005;德马里亚和卡普兰1994a,B)。其他两个导出参数的TC运动,纬向(ZONX)和南北向的(或许)组成,是估计基于经度的变化只与纬度的变化在过去的12小时,分别。的其他计算参数见表1,VV,SRLA,POT2,和SRV0值,由已知参数的简单数学函数得到的,要么是提供SHIPS数据库或源如上所述。

如前所述,SHIPS模型是基于多元线性回归技术。其显著的预测依据是标准F检验,在特定预测期的1%显著水平上。从本质上讲,SHIPS预报选择程序。是一个基于TC强度变化和特定参数值之间的相关性的一对一过程。本研究的目的之一是深入了解影响飓风强化的不同物理过程之间的相互作用(即利用关联规则数据挖掘技术探索控制TC强度的大量因素之间的多对一关联)。

c.关联规则挖掘算法

关联规则归纳(Agrawal等人。1993)最初是为市场篮分析而开发的,目的在于发现顾客购物行为的规律性。关联规则是像zx,y这样的规则。这个规则表示项x、y和Z.之间的关联。在规则中,x和y被称为前因,z是结果。规则指出,随机挑选的客户选择项目X和Y也很可能选择项目Z。来路的数量可以从一个到数据库中的项目总数。在这项研究中,前因是TC条件所描述的参数值范围和随后的是强度变化类别,如强化、弱化等。

支持、信任和提升通常是挖掘关联规则的三个参数。支持估计的概率P({X,Y,Z}),和信心估计的概率P (Z|{X, Y})。关联规则ZX,Y是强的,如果它同时具有大的支持值和高的置信度。第三个参数,提升,是项目的实际概率之间的比率设置包含前提和后果分为先行词的设置以及随之而来的个人概率的乘积(西尔弗斯坦等人。1998)。那是,提升= P({X,Y,Z})/ [ P({X,Y}) P(z)]。电梯实际措施信心比,P(Z|{X,Y}),对预期的信心,P(z)。

关联规则挖掘算法的研究中使用的版本是由borgelt(2009)。在这个实现的支持值定义为P({X,Y})代替P({X,Y,Z})。规则度量的实际描述(支持、置信度,和提升)、前因、后果,而这种应用关联规则推迟到第4a包含真正的规则。与大多数数据挖掘应用一样,在关联规则挖掘算法应用之前,需要进行数据预处理。

  1. TC分层与数据预处理
  2. TCS的分层

数据预处理的第一步是删除所选参数中缺少数据的记录。删除缺失值的条目后,总共保留了1996条观察记录。由于TC强度变化取决于初始强度,整个数据集分成不同的群体,这些群体包括热带低压(TDS),热带风暴和飓风(TSS)、五类(H1–H5)根据萨菲尔–辛普森飓风规模(NWS 2007)。表2列出了分层后各组的观察记录数。

探讨关联规则挖掘影响热带气旋强度变化的因素组合,TC患者进一步分为强化、弱化、稳定的情况下。由于强度记录中的标称误差为5千吨,在12小时内强度降低5千吨或更大的TCS被认为是弱化的情况。在对面,TCS与5克拉或更大强度的增加被视为强化案件。与强度的变化范围在12小时内5-kt TCS为稳定的情况下,数量的强化,弱化,并为每个组stabletcs(基于他们的初始强度)和每个组的样本百分比值也列于表2中。例如,在总共475个1级飓风记录中,有180个(37.9%)增强,其中167(35.2%)减弱,128(26.9%)稳定。

表2 分层TCS的强化、弱化和稳定的案例编号括号中的数字是强化、弱化和稳定情况下的样本百分比值。每个类别。飓风类别由1级和2级飓风组成,主要飓风类别为由3级至5级飓风组成。

第5类飓风的数量非常小。由于很难确定在一个小样本的规则,另外两类群体构建了数据挖掘的目的:飓风组(HR)组成的1级和2个飓风和飓风集团(MH)组成的3级–5飓风。这些群体相应的例数也在表2上市。

  1. 分层TCS的数据预处理

从概念上讲,关联规则挖掘算法被设计用于处理包含布尔类型属性的数据集,例如有或不存在项的市场篮事务数据。对于科学数据集,如具有连续数值属性的飓风数据集,所有连续属性都必须被打破, 与一组布尔条件相对应的不连续的谓词或条件。

将数字属性分解成多个范围谓词的方法有很多种。作为普遍实行,复合分析的目的是确定一个参数是热带气旋发展的有利或不利的因素(例如,王和吴2004;卡普兰和迪马利亚2003)。换句话说,我们有兴趣知道,如果一个参数可能会导致强化或不当的参数有一个“高”或“低”的价值。因此,我们将每个属性的整个值范围划分为一个低值范围和一个基于预定阈值的高值范围。虽然这里定义了三种强度变化(强化、弱化和稳定),但这是预料之中的。前两种类型(强化和弱化)对于定义给定属性的阈值是最有用的。因此,寻找一个属性的最佳分裂值的加剧和削弱TC组是一个两类分类问题只使用一个属性。

表3 t-test-selected参数为不同类别的TCS。括号中的数字是为每个类别选择的参数。

基于贝叶斯理论,一个属性区分两个类的最优值应按种群大小进行加权。在这个分层的研究中,两组的人口除了第5类飓风外没有很大的偏见。因此,用两个类的样本均值的均值作为分裂的估计价值。

基于贝叶斯理论,一个属性区分两个类的最优值应按种群大小进行加权。在这个分层的研究中,两组的人口除了第5类飓风外没有很大的偏见。因此,用两个类的样本均值的均值作为分裂的估计价值。

价值转化上面所描述的是一个lossy”数据还原机理。当飓风的参数值由实数转换为二进制范围时,大量的信息和相应的预测能力就会丢失。为此,基于二值的

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[22683],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。