1. 研究目的与意义(文献综述)
随着计算机的计算资源和存储资源的不断丰富,机器学习技术已经逐渐在很多领域得到应用,这包括图形图像、计算机视觉、自然语言处理、社交网络、推荐系统等方面。机器学习的经典问题是在有监督条件下的自动分类问题,研究者们基于这一问题提出了很多经典的分类算法。但是每一种算法都只是从某一个单一的角度对数据特征进行描述,因此只能反映数据某一个方面的情况。如何从多个角度对数据进行描述?这是研究者一直在思考的一个问题。如果能够集成多种分类方法,集合每一种方法的优点并克服各自的缺点,那将是非常有意义的。
机器学习所关注的一个根本问题是如何提高学习系统的泛化能力或者说是机器在数据中发现的模式怎样才能具有良好的推广能力。集成学习可以显著提高学习系统的泛化能力,它因此曾被权威学者dietterich列为机器学习四大研究方向之首。南京大学周志华教授长期从事人工智能中机器学习、数据挖掘、模式识别等方面的研究。他的研究组在集成学习领域进行了深入研究,获得了具有国际影响的成果。由于利用多个学习器可以获得比单学习器更好的性能,因而很多学者试图通过增加学习器的数目提高泛化能力。周志华等人提出选择性集成理论,证明了从1组学习器中选择部分学习器比用所有学习器构建集成学习系统更优越并设计出有效的选择性集成算法。该研究结果在业界获得高度评价。其完整研究结果发表在artificia1intelligence上,并被isi列入2000一2004年被引用最多的“top1%”论文。理想的学习方法不仅要有强的泛化能力,还要有好的可理解性。周志华等人提出了二次学习的思想,将集成学习用作预处理,设计出泛化能力强、可理解性好的新型规则学习方法c4.5rulepane引起著名学者sharkey的重视。
pal计划.2003年,darpa开始启动5年期pal计划,首期(1~1.5年)投资2900万美元。这是一个以机器学习为核心的计划(涉及到ai的其他分支,如知识表示和推理、自然语言处理等);包含2个子计划:radar与calo。calo子计划是整个pal计划的核心。从calo的目标来看,darpa已经开始把集成机器学习技术的重要性置于国家安全的角度进行考虑。美国一些主要大学和公司参加了这个子计划。
2. 研究的基本内容与方案
基本内容:
本文研究的课题是集成学习算法的研究。论文包括以下几个方面的内容:
(1)查阅国内外文献和搜集集成学习相关资料,介绍集成学习的基本原理,并完成有关毕业设计相关的外文文献翻译。
3. 研究计划与安排
第1周 毕业设计开始;
第2周 查阅毕业设计题目的相关资料;
第3周 撰写开题报告;
4. 参考文献(12篇以上)
1.zhouzh,yangy,wuxd,kumarv.thetoptenalgorithmsindatamining.newyork,usa:crcpress,2009,127149
2.valiantlg.atheoryofthelearnable.communicationsoftheacm,1984,27(11):11341142
3.freundy,schapirere.experimentswithanewboostingalgorithm.in:proceedingsofthe13thconferenceonmachinelearning.sanfrancisco,usa:morgankaufmann,1996.148156
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。