性数据与R软件的结合应用

时间:2024-02-12 点赞:42688 浏览:80580 作者原创标记本站原创

本文是一篇线图论文范文,关于线图类毕业论文模板,关于性数据与R软件的结合应用相关毕业论文模板范文。适合线图及统计分析及数据方面的的大学硕士和本科毕业论文以及线图相关开题报告范文和职称论文写作参考文献资料下载。

【摘 要】探索性数据分析在统计分析中有不可磨灭的作用,提供丰富的详细考究数据的方法,侧重于灵活研究数据.本文拟针对各大城市降雨量相关数据,将R软件应用于其中,进行相关分析,得出结论.

【关 键 词】箱线图;幂变换;展布水平图;降水量

一、研究背景及发展

数据分析分为两大阶段,探索阶段和实证阶段.探索性数据分析可以分离出数据的模式和特点,把它们有力地给分析者.探索性数据分析(exploratorydataanalysis,简称EDA)于上世纪六十年代被提出,并逐步发展,现今已经应用非常广泛.具体来说,是对调查者观察得到的原始数据直接进行预处理净化,做出箱线图、茎叶图等等,直观展现出数据的结构等.并没有先做出相关的假定或者在部分假定条件下进行分析.即在对数据的基本特点还没有认识的情况下,无法选取相应的统计方法进行相关分析,此时可以应用探索性数据分析,挖掘数据之间的相关特征,给出之后实证分析的大致方向,此时再运用统计方法则会显得更加合理,更科学有效.为后来的数据实证分析做铺垫.

二、实例研究

如下,选取数据为中国16个大城市三月到10月的降水量,数据显示如下,可知,若直接运用统计方法,如大海捞针,不知何种假定下,选取何种统计方法较为合理.则先运用探索性数据分析中的相关方法.为使结果直观显示,运用箱线图作图,结合R软件编写代码.

(一)未作幂变换前的箱线图

箱线图是一批数据的五数总括的图示,展现了这个批的数据结构要点.从箱线图我们可以发掘出一个批的某些特性:位置、展布、偏度、尾长、边远数据点(离群点).

但是初始箱线图也有缺点,如远离原点的批可能比靠近原点的批,有更大的展布,体现在图形上则会出现有些箱线图挤在一起,较为扁平,不利于数据分析.因此,若用同一尺度来绘图,将难以看出靠近远点的批的细节.

为了改善箱线图的这个缺点,我们可以做一些适当的变换,使得这些批的变异性更加一致.我们要从数据本身得到关于数据变换的一些指导,一个比较适合的标准就是“展布对水平图”,它能够建议一个幂变换,有助于把跨越这些批的不同水平的展布变成相等.

用箱线图比较几个批的数据,三搜集中国16大城市3月到10月的降水量数据,单位为毫米,由于数据庞大,不在此列出.数据来源于2012年统计年鉴.

构造出的箱线图可以看出位置,展布,尾长和离群值截断点.图中四分数相对于中位数的位置,可以看出偏度,若中位数离下四分数,比离上四分数近得多,则表明这个批是正偏的,反之则为负偏.由以上箱线图可知,效果不是很好,有较多的离群值截断点,不便于我们对数据的分析.

由上图可知,第13个箱线图(广州),距离远点较远,其降水量不仅有较大的展布,且分布较均匀.第16个箱线图(乌鲁木齐),其降水量展布较小,距离远点较近.由此可见,箱线图的局限性,为了解决展布对水平的依赖,以及离群值对数据分析的干扰,下面将对其进行改进.做相应的幂变换.

(二)幂变换(改善箱线图)

用R对所有数据进行平方根变换,得到新的展布对水平图.

则与前一个展布对水平图比较得知,此图没有明显的趋势,展布对水平不再有依赖性,则说明变换有效,达到了目的.

改善之后的展布水平图与箱线图如下.

可知,这个变换确实在几个重要方面改善了数据.我们可以知道,第13个箱线图(广州)的降水量普遍较高,其最小值都高于第2个箱线图(天津),我们得出,即使是在雨季,天津降水量都比广州要小,地域差异使得降水量有如此大的差异.第11个箱线图(武汉)的降水量有一个离群点,是在7月,降水量为389.7,可见武汉的雨水集中在7月,在夏天是一个降水量较大的城市.

三、结论分析

通过运用探索性数据分析和R软件结合的方法,数据被有效地处理与改善了.可见,探索性数据分析技术能帮助我们正确的处理数据,与R软件结合以后,拥有更加强大的功能,通过幂变换,箱线图得到了明显的改善,减少了离群值,展布也不再依赖于水平.总之,探索性数据分析在当今软件计算机如此发达的时代,其作用得到了越来越充分的体现,没有探索性分析,证实性分析往往是盲目的,缺乏根据的;没有证实性分析,探索性分析则永远是一次不完整的的统计分析.正确运用探索性数据分析与R软件结合的方法,对数据进行处理与分析,可以带来很大的便利.


相关论文

基于R软件的债券收益率与预测

本文是一篇金融工程论文范文,关于金融工程方面毕业论文开题报告范文,关于基于R软件的债券收益率与预测相关毕业论文参考文献格式范文。适合。

基于R软件的金融资产收益波动率建模

本文是一篇模型论文范文,模型方面有关本科毕业论文,关于基于R软件的金融资产收益波动率建模相关硕士学位毕业论文范文。适合模型及风险管理。

数据挖掘与软件工程

本文是一篇软件工程论文范文,关于软件工程专升本毕业论文开题报告,关于数据挖掘与软件工程相关硕士学位毕业论文范文。适合软件工程及软件开。

R软件在优势行业聚类中的应用

本文是一篇经济发展论文范文,经济发展类有关本科毕业论文,关于R软件在优势行业聚类中的应用相关学士学位论文范文。适合经济发展及金融危机。

R软件教学的心得

本文是一篇统计分析论文范文,统计分析方面自考毕业论文开题报告,关于R软件教学的心得相关专升本毕业论文范文。适合统计分析及计算机语言及。