1. 研究目的与意义(文献综述包含参考文献)
文 献 综 述研究背景现代互联网信息中含有极为丰富的商业价值,如何从这些海量数据中挖掘出有用的信息是一个重要的课题。
而信息爆炸产生的海量数据在传统计算机上进行聚类分析处理需要耗费大量的时间,不能满足现今的商业需求,结合云计算平台的并行化改进能有效解决这一问题。
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容、问题解决措施及方案
1. 拟研究或解决的问题 为了突破面对海量数据时的计算瓶颈,本研究在spark平台上实现k-means算法并行化。
针对k-means算法的不足,本研究使用canopy算法对k-means算法进行优化提高算法效率和聚类结果的准确性,并在spark平台上实现canopy-kmeans算法的并行化。
对基于spark平台的k-means并行算法和canopy-kmeans并行算法在准确性、加速比、扩展性、与其他平台性能进行了比较。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。