1. 研究目的与意义(文献综述)
近年来,随着计算机技术的发展,人们越来越懂得发现和挖掘数据中隐藏着的价值,对于各种现实生活中的各种数据,都会带给我们它所蕴含的意义,帮助我们更好的去完成工作和任务。在日常生活中,我们大多数时候所面临的数据大多是小样本数据,所谓的小样本数据,一般指n≤50的数据集合,其特征在于数据的样本数量少,提取样本间有用信息的难度较大,且比较难以构建合适的网络用于分析数据的分类问题,从而得不到对我们有用的信息。此课题目的在于提出基于边界的小样本特征提取算法去更好的解决小样本问题,并推广到多类和实际问题中。
在众多的特征提取算法中,最经典的是上世纪初Karl Person提出的主成因分析算法 (PrincipalComponent Analysis, PCA) [1]。如今该降维算法成为许多数据挖掘分析方法的数据预处理部分的分析技巧。另外一种比较常见的特征提取算法是1936年由Fisher提出的线性鉴别分析方法(Linear Discriminant Analysis, LDA)[1]。该方法与方差分析( Analysis of Variance, ANOVA)[1]非常相似,寻找变量的线性组合来最优保持数据的特性。典型的基于图的降维算法有拉普拉斯特征值映射法(Laplacian Eigenmaps, LE),该方法由 Mikhail 等[1]人在 2002 年提出来。此方法利用近邻图来刻画数据间的相似和相邻程度。算法寻找最优投影使得投影后的数据能够保持数据的局部结构信息。Luke D R 等[2]采用基于了局部线性投影的特征提取方法,有效的保留了局部以及全局的信息数据集,有效的在提升了类间离散度的同时尽可能的减小了类内离散程度。1995 年由 Vapnik等[3]提出的支持向量机(Support Vector Machine, SVM)理论给机器学习领域带来了新的思路。该方法的核心思想是原始空间中线性不可分的样本在高维空间会变得线性可分。Imani M等[2]一方面指出了小样本数据分类难的缺陷,另一方面尝试在高光谱图像数据上,采用双层网络架构,在第一层中加入吸引点供样本移动,在第二层对移动后的样本点进行分类,最终获得了较好地表现效果,然而因为在第一层的移动过程中用时过长,模型可能出现无法立刻收敛的缺陷。Xiao-Sheng Zhuang等[4]提出了逆Fisher准则的线性鉴别方法,该方法寻找最大的类内离散度和最小的类间离散度。由此,通过对类间协方差矩阵的求逆操作,避免了类内协方差矩阵的奇异性问题。Carlos等[4]提出了一种新的协方差矩阵估计方法称为最大熵协方差挑选法(Maximum Entropy Covariance Selection, MECS)该方法将各类协方差矩阵与总体协方差矩阵结合在一起并考虑其最大的不确定性熵最大。该方法可以在一定程度上克服协方差矩阵的逆阵不稳定性问题。由高维小样本数据的空间特性,黄睿等[6]提出了一种基于边界的小样本特征提取方法。Shubina T A[7]利用特征提取算法应用到医学解决样本体内的情况。何进荣等[8]利用分数距离度量来解决高维数据空间的维数灾难的问题。针对高维小样本数据的类(模式)内离散度矩阵常为奇异,成忠,诸爱士[9]提出了一种改进的线性判别分析方法ModLDA。它通过嵌入偏最小二乘算法,完成投影方向矢量的稳健估计,进而提取出若干个特征变量。而后基于特征变量张成的低维空间,构造样本类别的线性判别函数。张婧[10]博士选择真实的基因表达谱数据作为具体实验对象,把分类结果的好坏作特征选择算法的评价指标之一,提出了一种高维小样本特征提取的算法。宁永鹏[11]高维小样本数据的特征选择及其稳定性为研究对象,提出一种具有较好稳定性的基于随机森林的递归聚类消除特征选择方法。特征提取技术可广泛应用于数据降维和强化判别信息,能降低数据分类计算量,且在标记样本有限的情况下有效克服Hughes现象[12]。Guarnieri M等[13]提出了粒子群优化和微分进化结合的提取算法,在一定的温度、气体背压和增湿条件下提取多个材料参数极化曲线的实验数据(即现场测量)。该方法适用于其它涉及多物理非线性模型拟合的领域。Chen等[14]提出的LDA PCA算法,将数据变换到类内离散度的零空间,在该空间最大化类间离散度,在类内离散度矩阵的零空间寻找最优投影。Huang等[15]对该方法进行改进,在移除类内离散度矩阵与类间离散度矩阵的共同零空间后,再应用LDA PCA。Direct LDA[16]是另一种零空间方法,移除类间离散度矩阵的零空间,寻找极小化类内离散度矩阵的投影向量.Li等[17]将LDA准则中类间离散度矩阵与类内离散度矩阵的比值关系改为相减关系,提出基于最大化边界准则(Maxi-mum Margin Criterion,MMC) 的特征提取方法。SongY等[18]提出了基于简化的Bartlett–Lawley假设检验和最小描述长度信息理论准则的特征选择算法,来联合选择通过PCA步骤应该保留的维数和相关信号的数量的模型顺序。
2. 研究的基本内容与方案
基本内容:本课题提出一种适用于小样本数据的基于边界的特征提取算法,对小样本数据进行研究,分析现有各种算法的缺点,并有效利用其优点,分别结合融合形成新的算法,再通过高光谱数据特征提取与分类实验,比较实验结果,提出符合要求的最佳算法。
目标:1. 基于边界的特征提取算法利用高维数据小样本情况下线性可分概率增加以及其低维投影趋于正态分布的特点,定义了新的类别边界。
2. 通过极大化该边界获得最优投影向量,同时避免因类内离散度矩阵奇异导致的小样本问题。
3. 研究计划与安排
1. 查阅文献,分析研究课题现状,了解学习基本知识和原理;2. 阅读文献,撰写开题报告,进行外文翻译,思考毕业设计进度安排问 题;3. 了解学习并掌握小样本数据特征提取技术的各种准则,原理,知识;4. 学习研究国内外研究现状,分析并整理现有算法;5. 总结,提炼并改进现有算法,结合现有算法,提出新的基于边界的特征提取算法;6. 进行高光谱数据特征提取与分类实验,提出最佳算法;7.推广小样本算法到多类问题和实际应用问题;8. 整体总结算法并进行回顾反思总结;9. 撰写毕业论文,完成论文初稿;10. 整理,修改,完善论文;11. 论文打印,装订完成,准备答辩。
4. 参考文献(12篇以上)
[1] 陶存贵,不平衡小样本数据的特征提取与分类方法研究[D],哈尔滨工业大学 2012(6)[2] 李秋玮,基于条件生成对抗网络和超限学习机的小样本数据处理方法研究[D],江苏大学,2019(4)[3] 陈果,周伽,小样本数据的支持向量机回归模型参数及预测区间研究[A],南京航空航天大学,2008(1)[4] 王卫东,高维小样本数据的特征提取及分类器算法研究[D],南京理工大学,2006(10)[5] 高梁,廖志武,刘晓云,陈武凡,适用于小样本问题的有监督边界检测方法[A],电子科技大学,2011(10)[6] 黄睿,何明一,杨少军,一种适用于小样本问题的基于边界的特征提取算法,西安工业大学,2007(7)[7]Shubina T A;;Obergan T Yu;;Lyapina L A ,Effect of a New Synthetic Peptide Preparation AСTH15-18PGP on the Hemostasis System in Rats[J],Bulletin of experimental biology and medicine,2019(12)[8] 何进荣,丁立新,胡庆辉,李照奎,高维数据空间的性质及度量选择[A],2014(5)[9] 成忠,诸爱士,一种适于高维小样本数据的线性判别分析方法[A],浙江科技学院,2008(6)[10] 张靖,面向高维小样本数据的分类特征选择算法研究,合肥工业大学,2014(4)[11] 宁永鹏,高维小样本数据的特征选择研究及其稳定性分析,厦门大学,2014(4)[12] Hughes G F. On the mean accuracy of statistical pattern recognizers. IEEE Transactions on Information Theory, 1968, 14(1): 55-63[13] Guarnieri M, Negro E, Noto V D, et al. A selective hybrid stochastic strategy for fuel-cell multi-parameter identification[J]. Journal of Power Sources, 2016, 41(6): 249-264.[14] Chen L-F, Liao H-Y M, Ko M-T, Lin J-C, Yu G-J. A new LDA~ based face recognition system which can solve the smaJI sample si2e problem. Pattern Recognition, 2000, 33 (10): 1713-1726[15] Huang R, Liu Q, Lu H, Ma S. Solving the small sample size problem of LDA//Proceedings of the 16th International Conference on Pattern Recognition. Quebec Canada, 2002: 29- 32[16] Yu H, Yang J. A direct LDA algorithm for high-dimensional data —with application to face recognition. Pattern Recognition, 2001, 34(10): 2067-2070[17] Li H, Jiang T * Zhang K. Efficient and robust feature extraction by maximum margin criterion//Proceedings of the Advances in Neural Information Processing Systems. Vancouver, Canada^ 2004: 97-104[18] Song Y, Schreier P J, Ramirez D, et al. Canonical correlation analysis of high-dimensional data with very small sample support[J]. Signal Processing, 2016, 52(3): 449-458.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。