全文总字数:4781字
1. 研究目的与意义(文献综述)
近30年来,很多研究领域的数据集朝着大规模的方向发展,它们经常会有成千甚至上万的特征,随着数据维度的增高,数据所占据的空间增大,但在特征空间中变得稀疏,使得数据分析变得困难,同时硬件水平也难以维持对数据的处理效率。特征选择是机器学习、数据挖掘和统计学等研究领域中的经典问题,它是为了解决在高维数据上学习算法效率低性能差的问题而衍生的,很多学者致力于研究如何选择更好地特征子集的方法。
特征选择的研究始于20世纪60年代初,初始的特征选择主要在有监督的条件下进行处理,通过已知的样本类别信息,选择固定数目的特征以达到最优。但是由于早期的特征选择涉及到的特征数目较少,通常假设特征是相互独立的,通过对每一个特征单独进行评估,然后将被选中的使得分类效果最好的特征组合在一起。这种方法没有考虑到特征与类别之间的相互联系以及特征和特征之间的依赖关系。
随着20世纪90年代机器学习的兴起和新技术的出现,大规模的数据不断出现,给已有的特征选择算法带来了挑,但也推动了特征选择的发展研究。kira和rendell于1992年提出了relief算法,它基于统计相关性,采用欧氏距离来度量特征子集的重要性,是一种较好的过滤式特征选择算法,该算法不能剔除冗余特征且局限于解决两类分类问题。1994年,george等人提出不相关、强相关和弱相关特征的定义,全面讨论了特征选择问题。1997年,dash和liu对不同的特征选择方法进行了总结,并根据策略和评价准则给出了特征选择的大致分类。20世纪末,hall提出基于相关性的特征选择方法cfs,通过将特征之间的冗余性和类与特征的相关性结合到一个评价函数中,通过这种方法来评价特征是否冗余和相关。自二十一世纪,特征选择算法趋于多样化。2002年,sebban等人为每一个特征创建最小生成树作为其评价标准,并在选择之前使用统计学实验选择重要的特征;同年,王国胤等人将信息熵理论应用于特征选择算法。2005 年何晓飞等人基于拉普拉斯特征映射(laplacian eigenmaps)提出了 laplacian score 算法,该算法可以有效的提取出那些体现数据潜在流形结构的特征且选择的特征有较大的方差,但是该算法忽略了特征之间的相关性。
2. 研究的基本内容与方案
研究的基本内容:在实际生活中产生的绝大多数数据均为多视角数据,其中存在着大量的相关性、不相关性和冗余。以多视角数据为对象的数据分析的相关算法在近几年不断地发展。特征选择是一种十分有效的降维方法。因此多视角特征选择方法在机器学习和数据分析领域成为了一个重要的研究的方向和课题。由于多视角数据对某类数据中的每一个样本从不同的视角进行了描述,呈现为对样本的多个特征集合的表示。这些特征的集合从不同的角度描述了某类数据的不同的属性和特点。通过利用多视角数据的这些特点,进行特征选择,剔除与数据分析任务无关和冗杂的特征,降低数据的维数、减少在训练模型和学习任务的时间耗费、提高学习性能。
目标:有效地从大量的特征中选择最优的特征子集保留下来,针对不同视角上数据所存在的相互的关联性和差异性,利用这些复杂且有限的信息,对这些特征和数据信息进行进一步地加工和处理。
拟采用的技术方案和措施:对于多视角数据,计划学习相应的图结构,保留原始数据中的流形结构,体现特征之间的相关性,再实行分区级处理,弥补同一个视角的特征之间的冲突,使得信息可以互补。之后进行在学习基本分区和图的过程中来特征选择,可以达到消除冗余特征以及体现特征相关性的目标。该过程计划使用matlab工具实现。
3. 研究计划与安排
2019年12月14日-2020年1月6日选题、调研、收集资料
2019年1月6日-2020年3月15日 论证、开题、外文翻译
2020年3月15日-2020年4月15日写作初稿
4. 参考文献(12篇以上)
[1] y. feng, j. xiao, y. zhuang, x. liu, adaptive unsupervised multi-view feature selection for visual concept recognition, in: proceedings of the asian conference on computer vision (accv), 2012, pp. 343–357.
[2] j. tang, x. hu, h. gao, h. liu, unsupervised feature selection for multi-view data in social media, in: proceedings of the siam international conference on data mining (sdm), 2013, pp. 270–278.
[3] z. wang, y. feng, t. qi, x. yang, j.j. zhang, adaptive multi-view feature selection for human motion retrieval, signal process. 120 (9) (2016) 691–701.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。