1. 研究目的与意义
非用一个成语概括集成学习的优点的话,大概就是博采众长。
在过去的二十年中,机器学习相关社区通过组合从一个或多个学习算法生成的多个分类器,开展了许多研究来提高单个分类器的性能。
例如bagging和boosting是集成学习算法中最具代表性的示例,而自1992年wolpert提出题为堆栈泛化的研究以来,stacking等较为先进的算法也已成为生成异构分类器集成学习的常用技术。
2. 课题关键问题和重难点
一、天文大数据样本数据量过大(目前已收集到10 G量级的数据文本),特征字段过多(约2600维),模型训练耗时较长(可尝试的解决办法如进行抽样训练或进行降维处理)。
二、数据样本不平衡问题(初次收集得到各类型数据比例约为:442969条start,34288条 unknow,5231条 galaxy,1363条qso),需根据实际训练效果再进行修改和测试(解决办法:1、原数据重复迭代进行训练 2、对不同类别的数据分别进行采样再根据实际效果处理)。
三、读取数据存在数据不规范或数据本身存在不合理和错误性问题,比如出现(0.22.5或者0.0.322)这类记录性错误数据(需逐条处理,处理逻辑可标记为0,或进行替代等其他处理方式)。3. 国内外研究现状(文献综述)
分类器是从数据集中获取实例并为每个数据集配置一个类或类别。为了执行此任务,分类器必须具有某种类型的知识。其可以通过使用各种形式的学习(例如,演绎、类比或记忆)来创建分类器,但是获取这类知识的最常见方法是从一组先前分类的实例中进行推断。这类模式的学习被称作监督学习。机器学习中的大多数研究致力于开发使分类任务自动化的方法。尽管已经提出了许多模型,包括人工神经网络、决策树、归纳逻辑编程和贝叶斯学习算法等,但对于任何给定的任务而言,构建完美的分类器理论上都是无法实现的。此外,没有任何一种方法可以声称自己优于其他方法。因此,不同分类模型的组合被认为是获得更精准的分类系统的可行方案。模型合成的策略是创建一组分类器并将其输出合并,以使合并的集合性能优于单个分类器。为了实现这一目标,有必要保证各个分类器既准确又多样化;输出组合会放大正确的决策,并减小或消除错误的决策。集成领域的研究通常集中在通过应用单个学习算法并使用数学函数组合其输出来生成分类器集合。相反,集成学习算法使用几种学习算法来生成模型集合成员,然后使用另一个算法来学习如何组合其输出。
集成学习是通过算法组合一组分类器,它们的各个决策组合在一起以获得一个有望胜过其所有成员的系统。与人工智能领域中其他系统所发生的情况类似,分类器集合尝试模拟人类行为。具体而言,这些系统试图在面临重要决策时复制人类的表现。例如,进行手术之前先征求不同医生的意见,或是在购买产品之前进行或阅读评论。换句话说,如果根据不同专家的意见做出决定,则认为该决定更可靠。这一命题外推到机器学习领域导致了由几个分类器组成的系统的发展,其中最终的决定是集体做出的。机器学习领域的这一研究领域被称为分类器集成研究。集成系统中的策略是创建一组准确而多样的分类器,并将它们的输出进行组合,以使组合的性能优于所有单个分类器。 因此,分类器集成分为两个阶段:生成和组合。在生成阶段,生成集成的各个组成部分,称为基础分类器。在组合阶段,将集成成员的决策组合起来以获得一个新的综合决策。
要获得优于所有成员分类器的分类器集合,基础学习部分必须既准确又多样化。当分类器的分类误差小于随机分配分类时获得的分类器误差时,即推断分类器是准确的。如果两个分类器在不同的情况下出错,则推定它们是不同的。要求准确的分类器是合乎逻辑的要求,因为一组不正确的决策的组合不能轻易产生正确的假设。因此,如果所有决策具有相同的相关性,则整体决策将是正确的。但是,衡量多样性并不是很简单,因为没有正式定义的多样性标准,对于如何量化也没有达成共识。用于生成不同分类器的技术基于以下思想:分类器集合取决于学习算法和用于生成这些分类器的子集。因此,可以通过改变训练集或学习算法来生成其决策彼此不同的分类器。因此,本课题尝试利用这类文献思想,通过各类方法进行集成学习从而提升精度。
4. 研究方案
1、收集或爬取相关数据并读取。
2、数据清洗。
3、数据处理(方法如pca降维,标准化、数据异常值、数据采样处理等)。
5. 工作计划
一、进行本课题的需求分析,列出待解决问题及可能存在难点。二、对可能的天文数据来源(如官方天文台网站、天文爱好者论坛以及一些相关的数据平台)进行评估和检索,并通过爬虫技术对部分数据类型进行补充和替换。三、将准备好的数据集进行数据预处理,并使用适当方法清洗数据(方法如pca降维,标准化、数据异常值、数据采样处理等)。四、根据清洗得到的数据特点(目前未知)选择相符的机器学习分类器,并对各类单一模型进行比对。五、使用集成学习将多个单模型进行模型融合(如使用stacking 模型及blending 模型的效果比对),比对结果。六、通过修改模型参数、重新选定模型或进行其他操作以提升精度,并反复迭代上述过程。七、根据数据特点选定展示方法并进行结果展示。
具体时间安排:
第1周:学生撰写开题报告和完成外文翻译。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。