1. 研究目的与意义、国内外研究现状(文献综述)
近些年来,人工智能变得异常火爆,各类机器学习、深度学习算法也不断地推陈出新。
机器学习的最早发展是20世纪50年代,主要是神经模拟和决策理论技术,到70年代关于机器学习的研究才逐渐多起来,成为了人工智能单独的一个研究领域。
当前,关于机器学习的研究已经进入到自动化以及模式识别等领域,从理论研究逐渐开始了实践应用,而且取得了很好的成就,在商业领域的广泛应用就是很好的证明。
2. 研究的基本内容和问题
本课题是要通过一些数据特征方法来分析影响乘客存亡的因素,并用机器学习算法来进行检验。
通过建立多种机器学习算法模型,例如逻辑回归、决策树、支撑向量机等,利用已有的数据集,即泰坦尼克号上的船员和乘客的生存信息对模型进行训练,然后对新的样本集进行获救与否的预测。
综合多个算法的结果,可进一步对算法模型实现集成,之后运用一定的方法对模型进行评估和改进,从而提高模型的可行性,使得对新数据预测的结果在一定程度上既符合训练集,又接近我们的常识判断。
3. 研究的方法与方案
数据挖掘是一个比较复杂的过程,一般来说,数据挖掘首先要分析数据的选择,之后对数据进行清理,将数据之间的差异清除掉,具体包括数据清洗、数据集成等,再进行数据建模,通过模型预测结果的反馈,选择出最佳的数据特征,最后对数据特征进行分析,得出较为科学的结论。
本课题作为基于机器学习算法的一次数据挖掘实践,首先需要对原始数据进行加工和处理,其步骤可简述为:数据读取、特征理解分析、数据清洗与预处理。
其次通过建立多种分类模型,例如逻辑回归、决策树、支撑向量机等对处理后的数据进行“学习”,这一步骤可借助python语言的科学计算库实现,包括numpy科学计算库,pandas数据分析处理库,matplotlib可视化库,seaborn可视化库,scikit-learn机器学习库等。
4. 研究创新点
机器学习是现阶段解决很多人工智能问题的主流方法,作为一个独立的方向,正处于高速发展之中。
最早的机器学习算法可以追溯到20世纪初,到今天为止,已经过去了100多年。
在这100多年中,经过一代又一代人的努力,诞生出了大量经典的方法。
5. 研究计划与进展
3.1-3.10 获取数据集,并对数据集进行初步的处理。
3.11-3.20 查阅相关的资料、论文,学习数据挖掘的步骤。
3.21-4.1 运用数据挖掘的方法,进行特征的相关性分析、可视化展示
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。