1. 研究目的与意义(文献综述)
近年来随着技术创新和应用,尤其是互联网行业的飞速发展,大量的数据充斥在世界的每个角落,大数据时代正在降临。大数据不仅仅是庞大的数据,其间还包含着很大的利用价值,而并非所有数据都是能够直接利用的,这还需要筛选与更改,才能更好地去利用这些数据来提取价值。因此,在处理和使用数据之前,要先进行数据清洗,提高数据质量,减少不必要的麻烦,也节约了时间人力机器等成本。
在整个数据挖掘过程中,数据预处理主要内容包括数据清洗,数据集成,数据变换和数据规约,总工作量占到了整个过程的60%,而数据清洗是数据预处理的第一步,决定着所有数据的质量,直接影响到数据挖掘结果的准确性,其重要性不言而喻。数据清洗主要是删除原始数据集中的无关数据、重复数据、平滑噪声数据,筛选掉与挖掘主题无关的数据,处理数据缺失,异常值等。
本课题主要研究数据清洗中的异常值处理。异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点分析。异常值分析是检验数据是否有录入错误及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会带来不良影响。因此,重视异常值的出现,分析其产生原因,常成为发现问题进而改进决策的契机[1]。
2. 研究的基本内容与方案
2.1研究(设计)的基本内容
本文针对数据处理,特别是大数据中容易出现的噪声数据,基于不同的数据清理方法,采用matlab软件对各种数据清理方法进行仿真模拟,比较各方法的去噪效果,为现代数据处理技术发展提供有益参考。
2.2 研究的目标
3. 研究计划与安排
第1-2周:调研,查阅和阅读文献资料,明确研究内容。完成英文文献翻译等工作。确定方案,完成开题报告。
第3-5周:学习数据清理技术,用软件仿真相关数据。
第6-9周:用matlab进行建模仿真,针对不同数据清理方法进行编写相关程序。
4. 参考文献(12篇以上)
1.张良均等,matlab数据分析与挖掘实战p47,131
2.数据挖掘中常用的数据清洗方法blog.csdn.net/jiazericky/article/details/80322225,2018-05-15
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。