R语言统计与分布的相关知识

变量按变量值是否连续可分为连续变量与离散变量两种。 连续变量(continuous variable)与离散变量(discrete variable)

连续变量

在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。

离散变量

离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.

R语言中的Data.Frame中的每一列可以表示一个变量;

变量关注点:1取值,2概率

得到了变量的取值及概率就获得了数据的分布


数据分布

数据分布的特征

集中趋势(位置)

离中趋势(分散程度)

偏态和峰态(形态)

R语言统计与分布的相关知识

一、集中趋势的度量

分类数据:众数

顺序数据:众数、中位数、分位数

数值型数据:众数、中位数、分位数、平均数

概念:

众数(mode):一组数据中出现次数最多的值;数据中重复次数最多的那个数据。 如评选”最佳“,”最受欢迎“等都与众数有关。Mo

中位数(median):排序后处于中间位置上的值。如有5个数,排序后第3个数为中位数,如果为6个数,则对中间两个数求平均结果为中位数。M
e 

四分位数(quartile): 排序后处于25%和75%位置上的值。

平均数(mean): 也称为期望

简单算数平均:

加权平均:  

R语言统计与分布的相关知识

几何平均:

     

R语言统计与分布的相关知识

 几何平均主要用于计算平均增长率;

R语言统计与分布的相关知识

特点:

1. 众数
  不受极端值影响
  具有不惟一性
  数据分布偏斜程度较大时应用
2. 中位数
  不受极端值影响
  数据分布偏斜程度较大时应用
3. 平均数
  易受极端值影响
  数学性质优良
  数据对称分布或接近对称分布时应用

关系:    

R语言统计与分布的相关知识

均值在中位数左边为左偏,均值在中位数右边为右偏。

二、离散程度的度量

反映各变量值远离其中心值的程度(离散程度)

分类数据:异众比率
顺序数据:四分位差
数值型数据:极差、平均差、方差和标准差
相对位置的度量:标准分数
相对离散程度:离散系数

概念:

异众比率(variation ratio): 非众数组的频数占总频数的比例。

R语言统计与分布的相关知识

例子:

R语言统计与分布的相关知识

四分位差(quartile deviation):上四分位数与下四分位数之差。反应了中间50%数据的离散程度。

例子:

  

R语言统计与分布的相关知识

极差(range):数据中最大值与最小值之差。

方差(variance): 是各个数据分别与其平均数之差的平方的和的平均数; 反映了各变量值与均值的平均差异.

    E{x}表示平均数

样本方差:

         

R语言统计与分布的相关知识

 

         在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。

标准差(standard deviation): 是各个数据分别与其平均数之差的平方的和的平均数的平方根;反映了各变量值与均值的平均差异. 反应了数据集的离散程度.

             对方差进行开方

标准分数(standard score):也叫z分数(z-score) 是一个分数与平均数的差再除以标准差的过程。用公式表示为z=(x-μ)/σ。其中x为某一具体分数,分数即为值。

例子:

  

R语言统计与分布的相关知识

离散系数:又称为变异系数,常用的是标准差系数,用CV(Coefficient of Variance)表示。标准差与均值的比率。 用公式表示为:CV=σ/μ

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/c54e3e38ff3e2ead56c142de36aab014.html