改进的惩罚回归及其在高维数据中的应用开题报告

 2021-08-08 02:24:54

1. 研究目的与意义

高维数据无处不在:声音,文本,图像,日志,光谱,金融数据,生物医学数据等等,都是通过成百上千个属性来描述的。这些数据里包含了许多重要的有用信息,如果我们需要从这些数据中提取有用的信息,就需要对这些数据进行分析,而传统的对低维数据集可用的方法,在高维数据集中失效了,如:在低维数据集中常用欧几里得距离比较数据元素,而在高维空间中,欧几里得距离集中,无法通过它来区分数据元素。对高维数据集的处理难度使得其包含的有用信息得不到有效的挖掘、提取和利用,因此很有必要对高维数据集上的统计学习方法及其应用的研究:

一、为高维空间的数据选择一个有效的距离度量方法,在此基础上改进那些低维空间中的基于距离的统计学习方法,可以使其在高维空间上同样适用。

二、对高维数据集进行降维处理,包括特征提取和变量选择等手段,在降维的同时保持数据元素之间的相互关系。一方面解决高维数据集的维数灾难问题,另一方面使得可以在一个较低维的空间对原有的高维数据集进行处理,减少计算的时间和空间复杂度,也使得可以使用低维空间上的统计学习方法进行处理。由于在对数据进行降维的同时保持了数据元素之间的关系,降维后在低维空间上的数据分析结果对降维前的高维空间同样适用。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 国内外研究现状分析

1、国内高维数据集上的统计学习方法的发展状况

李航(2012) [12]系统地介绍了统计学习的方法,并对常用的监督学习方法进行了分章逐一讲述,具体包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大嫡模型、支持向量机模型、提升方法、em算法、隐马尔可夫模型、条件随机场。其中不乏可以应用到高维数据集上的统计学习方法。

adaboost算法存在两个问题:如何选择最具判别力的弱分类器,如何优化组合这些弱分类器。针对这两个问题,gao c、sang n和tang q(2010) [13]提出了一个新的adaboost算法:首先,通过最小化一个新的距离相关的标准,如联合使用错误加权下的训练误差度量以及泛化能力度量取代单独的训练误差率,选择最具判别离的弱分类器。接着,在通过经验设定系数后,使用基于核的感知器对参数进行调优从而优化弱分类器。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的基本内容与计划

(1)文献调查:本文综述了国内外相关最新理论研究成果,借助相关学科理论,结合 hpm 的发展以及假设条件,提出研究框架。

(2)规范分析:基于 hpm 的假设和构建模型的统计学框架,广义线性模型的理论、lasso 方法以及 lars 算法。

最终,将经典的 hpm 推广到广义线性模型框架下,形成一个广义特征价格模型框架,并给出基于 lars-lasso 的变量和模型选择方法和模型的评价及其诊断方法。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

1.系统地梳理了 hpm 理论的统计形式和 hpm 构建的统计框架。

丰富和完善了 hpm 构建的理论框架。

2. 将经典 hpm 构建纳入 glm 框架,弱化了原有的统计学假定,并给出ghpm 构建框架。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。