全文总字数:4479字
1. 研究目的与意义(文献综述)
随着信息技术的不断发展,给人们的生活带来了极大便利的同时也产生的海量的数据,数据应用得范围也越来越广泛。当然有用的不仅仅是数据本身,而是数据中隐含的知识和信息[1]。数据挖掘基于此需要应运而生,20世纪90年代以来数据挖掘技术发展迅速,在各行各业中都得到了广泛的应用,它是一门交叉性学科,通用的定义是:数据挖掘是从大量不完全、含噪音、不确定的实际应用数据中,通过一定的数据准备、商业理解、分析挖掘以及解释评估工作,挖取隐含在数据中、不为人所知的且为相关部门提供决策依据与参考的信息和知识的过程[2]。
在大数据时代,数据海量无限产生,数据量已经不是之前的tb、pb级别了,而是达到了eb、zb级别,如此庞大的量级改变,再用之前的数据处理算法就不合时宜了,而且数据形式也发生了变化。传统的数据多是存储在数据库中的静态数据,运用时我们可以随机的抽样,重复的使用,且数据的概念分布不会随时间变化。而现在不仅是数据量级的简单增加,数据产生的速度也是呈量级的翻倍,如果把这些数据存起来再处理,不仅占用大量的存储设备,而且处理的速度也跟不上数据产生的速度。面对这样的情况就产生了一种新型的数据形式:数据流[3],它在各个领域的不同的应用上源源不断的产生,如银行的交易记录、车流检测数据、地理勘探数据、互联网购物记录等等,实时快速达到、海量无限且概念可能会随时间变化是它的特点[4]。
因为数据流中的数据量是海量的,在对数据流进行存储或者挖掘时进行多遍扫描也是不可取的,所以要从数据流中挖掘有用的信息,就要开发出一次扫描、联机处理、多维度的数据流处理分析方法[5]。海量的低抽象数据会造成数据库存储空间的浪费,概念漂移会导致分类模型目标概念的改变,高速的数据造成模型不能重复扫描数据,这些都是面对数据流我们所要解决的问题。
2. 研究的基本内容与方案
本设计研究的对象是数据流,所用到的方法是集成学习算法,针对数据流实时快速到达、海量无限且概念可能随时间改变的特点,通过改变传统的针对静态数据库的集成算法,使之成为能够解决因数据流特点而产生的问题算法,实现数据流的分类,并且在准确率和效率上能和传统的算法媲美。
集成分类学习是通过集成多个基分类器共同决策的机器学习技术,通过调用简单或者复杂的增量学习算法,获得多个性能好而不同的基分类器,然后采用某种结合方式将全部基分类器组合成一个集成分类器。本次设计的目标就是基于在线集成学习模型构建数据流分类分析系统,使之在有标签数据集上分类平均准确率达到80%以上,实验数据集在3个及以上。
根据以上的内容,拟采用的技术方案以及研究步骤如下:
3. 研究计划与安排
(1)第1-3周:查阅相关文献资料,明确研究内容,了解研究所需的理论知识。确定方案,完成开题报告。
(2)第4-5周:熟悉掌握基本理论,完成英文资料的翻译,熟悉相关工具软件的使用;
(3)第6-9周:实现系统各功能模块设计。
4. 参考文献(12篇以上)
[1] 韩杰. 基于集成学习的数据流分类算法研究[d].合肥工业大学,2018.
[2] berry m j, linoff g. data mining techniques:for marketing, sales, and customer support [m]. john wiley sons, inc.1997.
[3]hand d j.statistics and data mining: intersecting disciplines [j]. acm sigkddexplorations newsletter, 1999, 1(1):16-19.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。