基于大数据的数据挖掘算法设计-K-Means算法开题报告

 2021-08-14 16:05:08

1. 研究目的与意义(文献综述)

聚类是数据挖掘领域中重要的技术之一,用于发现数据中未知的分类。聚类分析已经有了很长的研究历史,其重要性已经越来越受到人们的肯定。聚类算法是机器学习、数据挖掘和模式识别等研究方向的重要研究内容之一,在识别数据对象的内在关系方面,具有极其重要的作用。聚类主要应用于模式识别中的语音识别、字符识别等,机器学习中的聚类算法应用于图像分割,图像处理中,主要用于数据压缩、信息检索。聚类的另一个主要应用是数据挖掘、时空数据库应用、序列和异常数据分析等。此外,聚类还应用于统计科学,同时,在生物学、地质学、地理学以及市场营销等方面也有着重要的作用。

·k一means算法是聚类算法中主要算法之一,它是一种基于划分的聚类算法,k-means算法是一种基于划分的方法,该算法的优点是简单易行,时间复杂度为o(n),并且适用于处理大规模数据。但是该算法存在以下缺点:1.k是事先给定的,这个k值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适。2.k-means算法需要用初始随机种子点,这个随机种子点太重要,不同的随机种子点会有得到完全不同的结果。(k-means 算法可以用来解决这个问题,其可以有效地选择初始点)。

因此我决定基于数据挖掘算法,对k-means算法进行研究和改动。本课题具有极高的实用意义,同时又有着很大的挑战性,综上所诉我选择了此课题作为毕业设计的题目。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

k-means算法基本步骤:

(1)从n个数据对象任意选择k个对象作为初始聚类中心;

(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1周—第3周:搜集资料,撰写开题报告;

第4周—第5周:论文开题;

第6周—第12周:撰写论文初稿;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1].k-means算法研究综述--《现代图书情报技术》2011年05期

[2].k-means聚类算法分析应用研究--《魅力中国》2011年3月上

[3].一种改进的k-means算法--《计算机技术与发展》2014年10期

[4].傅德胜,周辰.基于密度的改进k均值算法及实现[j].计算机应用,2011,31(2):432-434

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。