全文总字数:966字
1. 研究目的与意义
参数检验是推断统计的重要组成部分。如果当总体分布已知(给定或是假定),只是其中一些参数的取值或是范围未知,可以用参数检验进行分析,估计参数的取值。它不仅仅能够对总体的特征参数进行推断,还能够实现两个或多个总体的参数进行比较。参数检验只能用于等距数据和比例数据,一般正态分布用参数检验。它的优点是符合条件时,检验效率高;其缺点是对资料要求严格,如等级数据、非确定数据(>50mg)不能使用参数检验,而且要求资料的分布型已知和总体方差相等。非参数检验也是统计分析方法的重要组成部分,它与参数检验共同构成统计推断的基本内容。参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为非参数检验。而R语言作为一种解释性的编程语言,它不单是一门语言,更是一个数据计算与分析的环境。统计计算领域有三大工具:SAS、SPSS、S,R正是受S语言和Scheme语言影响发展而来。主要用于统计分析,绘图,数据挖掘。近几年由于大数据概念的盛行,R也在不断进入人们的视野,它源于S,这些年的发展却远远的超过了S。在国外高校的统计系,R几乎是一门必修的语言,具有统治性的地位。甚至已经成为高校毕业学生所选用的第二大工具语言,作为互联网公司翘楚的google内部也有不少的工程使用R进行数据分析工作。本文将参数统计和非参数统计的优越性与R语言便利相结合。用参数检验和非参数检验解决实际问题,利用R语言对它编程。研究参数检验与R语言的适用性。
2. 国内外研究现状分析
R语言是一门新兴的计算机语言,而数理统计里的统计检验早就发展成熟,在各行行业中发挥出重要的作用。本文基于R语言来解决一些重要统计检验方法,是希望由浅入深,掌握R语言更多的功能。相比国外的研究,国内对R语言起步较晚,但是由于互联网和大数据带给人们的便利,R语言近几年在国内的发展势头十分迅猛。自2008年12月13日,第一届中国R语言会议在中国人民大学召开。到去年年底已经是第六届会议顺利召开。参会人数不断壮大表明R语言在国内的发展势头良好。近几年来R语言多有走进人们的视线,在解决统计方面的问题上给予了我们极大的便利。在2008年04期的中共贵州省委党校学报上华东师范大学的叶文春发表了名为《浅谈R语言在统计学中的应用》,提出统计方法在各行各业中发挥着越来越重要的作用,学习和掌握一个统计分析软件十分有必要。R语言作为一个优秀的免费统计软件已得到越来越多人的关注。2009年首都经济贸易大学陈云博士对《居民收入分布及其变迁的统计研究》对比研究估计居民收入分布的参数统计方法、传统非参数统计方法与现代非参数统计方法提出居民收入分布核密度估计方法的改进及其步骤,在计算机上通过R语言编程实现。2011年河海大学水文水资源学院叶飞武,齐滨发布了《基于R语言的非参数检验研究》,针对太湖流域天生港站和江阴站年日最高潮位进行非参数检验分析,结果表明R软件对非参数检验有较好的适用性,两站的潮位相关性较好。2012年在中国宁夏银川的中国运筹学会不确定系统分会上南京林业大学理学院的梁加驰;沈竞发表了《基于R语言的MCMC方法研究》详细介绍马尔科夫蒙特卡洛(MCMC)方法,主要介绍它的一种特殊方法M-H算法。对该算法的详细的实施过程进行了阐述,并理清了算法间的关系。最后通过一个应用实例讨论了如何使用R语言实现该算法。在2012年27期的电脑知识与技术的期刊上,民航西南空管局的陈甫,余朋,李力也投稿了《成都双流机场历年主导能见度数据的统计分析及R实现》,文中介绍了成都双流机场历年主导能见度数据的来源和对主导能见度数据的整理,对主导能见度数据的分布情况和变化规律做了分析,对主导能见度均值时间序列的正态分布、季节性和平稳性做了研究,并描述了R语言实现过程。在国外R语言更为盛行,http://www.cran.r-project.org这个网站上提供了丰富的程序包供给我们使用。国外知名公司甲骨文增加对R语言的支持,提供包括da数据库驱动tabase driver 和 用户接口,让R语言处理大数据更加便捷。如今越发收到人们关注的Hadoop,也由Revolution Analytics发起RHadoop的开源项目,目前提供三个R packages。用于R语言访问HDFS的rhdfs以及用于R语言访问HBASE的rhbase。Hadoop是一个分布式系统基础架构,自2004最初只与网页索引有关,至今已经迅速发展成为分析大数据的领先平台。以我所在的开发客户关系方案软件的实习公司为例,最近已经在订单酬金这一模块尝试应用Hadoop加HBase的方式来处理大数据级别的计算,遗憾的是他们目前仍然是调用java类来处理信息。从这一方面来看拥有能够访问Hadoop接口R语言如果在处理同样的数据上能够大大提高性能,而且R语言拥有开源,敏捷的特点。与Java比较,R语言不需要依赖jre环境的虚拟机,与SPSS等统计软件相比,R语言拥开源,体积小的优点。综上所述,我相信以当前迎合大数据时代的潮流,R语言的发展势头猛烈。现如今在大学的教室,数据分析行业或是金融行业R语言已经大受欢迎。但是,R语言目前在互联网公司没有得到重视。以百度的迁徙地图为例应该能与R的另一强项绘图功能相结合。发挥出更大的能量。这样一个年轻富有活力的语言,增加了我们的学习兴趣与热情。希望能给我们的生活带来更多便利。
3. 研究的基本内容与计划
1、独立进行资料的收集、加工与整理,能综合运用所学的理论、知识和技能,进行必要的理论分析,结合计算机解决实际问题,正确绘制有关图表。
2、熟悉基本统计学基础知识,掌握参数检验,对在实际问题分析中的作用
3、了解非参数检验的方法,利用r语言对非参数检验进行实例分析
4. 研究创新点
1 运用软件R对一些重要的参数检验进行编程。2 详细介绍R语言中各非参数检验相关的函数并应用到例题。3 根据参数检验以及R语言中的相应函数,对实际问题进行分析,研究基于R语言的一些重要的参数检验在解决实际问题中的作用。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。