1. 研究目的与意义
毕业设计的内容和意义 一、 课题内容课题主要研究基于spark的因子分析法,针对古代疫病数据基础数据处理以及分析研究,利用大数据分析平台与算法的结合,对古代疫病数据进行有效的挖掘。
因此本课题要实现的内容为以下几点:(1) 研究spark平台的体系结构。
由于本课题是基于spark平台的因此需要对其进行学习研究,并对其开发语言scala进行熟悉研究。
2. 文献综述
摘要:将spark的数据分析特性结合因子分析算法,首先通过大数据处理方式对疫病数据进行数据清理,根据古代疫病的治疗方案的多种影响因素包括药方、膏方、丸剂的用药配伍和地域、天气、朝代等,进行多维度因子分析,对疫病数据的潜在规律进行数据挖掘,分析笔筒的因素对疾病治愈的影响度,寻找研究古代疫病中医治疗的一般规律,为现代中医疫病治疗提供有效的临床指导关键词: spark;因子分析;mapreduce;古代疫病数据1引言随着人们对大数据的重视以及数据量的不断增多,动辄以pb或者eb计量的大数据,将远远超出传统数据库软件工具采集、存储以及组织和分析的能力,这将给企业的存储架构以及数据中心的基础设施带来巨大的挑战和改变,由此也会带来云计算、数据仓库、数据挖掘等技术和应用的提升或者根本性改变。
大数据的出现,为云计算提供了释放能量的空间,也指明了云计算真正有价值的方向。
云计算和大数据作为一体两翼,将会是衡量企业未来技术能力的最重要依据。
3. 设计方案和技术路线
操作系统:mac os x 10.12.6软件包:spark 2.2.0 , hadoop 2.7 , flask 0.10.1 , jinja2ide环境:pycharm komodo开发语言:python 2.7.10 , scala 2.12.4设计方案流程图 技术路线流程图 hadoop :hdfs,在由普通pc组成的集群上提供高可靠的文件存储,通过将块保存多个副本的办法解决,服务器或硬盘坏掉的问题。
mapreduce,通过简单的mapper和reducer的抽象提供一个编程模型,可以在一个由几十台上百台的pc组成的不可靠集群上并发地,分布式地处理大量的数据集,而把并发、分布式(如机器间通信)和故障恢复等计算细节隐藏起来。
而mapper和reducer的抽象,又是各种各样的复杂数据处理都可以分解为的基本元素。
4. 工作计划
2月17日-2月23 日:搭建Spark平台 2月24日-3月 2 日:编写因子分析程序 3月 3 日-3月 9 日:疫病数据预处理 3月 10日-3月16日:将模块整合,实现核心功能 3月17日-3月30 日:设计实现展示平台 3月31日-4月6日:软件的测试与修改 4月 7 日-4月20日:论文撰写
5. 难点与创新点
1. 利用分布式计算方法对古代疫病数据进行数据清洗,归一化等,代替人工逐词逐句的分析。
2. 将因子分析法结合分布式处理集群实现支持大数据量的处理方式。
3. 利用因子分析对古代疫病数据中对疾病的多重影响因素进行分析,分析针对于各朝各代的汤药方、膏方、丸剂等用药特点。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。