数据科学完整流程概述 (2)

数据科学完整流程概述

 

当你拿到一个新的数据集时,下面是针对变量理解和处理的基工作流程:

(1)数据有没有组织?数据是以表格形式存在、有不同的行列,还是以非结构化的文本格式存在?

(2)每列的数据是定量的还是定性的?单元格中的数代表的是数值还是字符串?

(3)每列处于哪个等级?是定类、定序、定距,还是定比?

(4)我们可以用什么图表?条形图、饼图、茎叶图、箱型图、直方图,还是其他?

下图是对以上逻辑的可视化:

数据科学完整流程概述

 

冗余变量:一般指重复或者多余的变量

完整性:取值范围、取值的一致性、异常值、整体完整性

缺省值、默认值:指一个属性、参数在被修改前的初始值。

关键字:

公共关键字:公共关键字指的是在关系数据库中,关系之间的联系是通过相容或相同的属性或属性组来表示的。

外关键字:如果公共关键字在一个关系中是主关键字,那么这个公共关键字被称为另一个关系的外关键字。

侯选关键字:如果一个超关键字去掉其中任何一个字段后不再能唯一地确定记录,则称它为“候选关键字”(Candidate Key)。

主关键字:关键字(primary key)是表中的一个或多个字段,它的值用于唯一的标识表中的某一条记录。

……

2.2.探索性数据分析(EDA) 2.2.1.CDA与EDA的区别

传统的多元分析方法采用的是“假定—模拟—检验”的证实性数据分析策略(confirmatory data analysis,CDA),即首先需要假设数据总体服从某种分布(如正态分布)。然而,在实际问题中有许多数据并不满足这一前提假设,因而需要使用稳健的或非参数的方法去解决。但是,但数据维数很高时,这些方法都将面临一些困难。

为了克服CDA这种分析策略所具有的一些困难,需要对数据不做假设或者只做很少的假设,进而“直观审视数据——通过计算机模拟数据结构——检验”这样一种探索性数据分析策略(exploratory data analysis,EDA)。

探索性数据分析是在尽量少的先验假定下对数据进行处理,通过作图、制表等形式以及方程拟合、计算某些特征量等手段,探索数据的结构和规律的一种数据分析方法。与证实性数据分析相比,探索性数据分析具有如下特点:

(1)研究从原始数据人手,完全以实际数据为依据,而不必对数据的分布进行假设。

(2)分析方法从实际出发,不以某种理论为依据。探索性数据分析在寻求数据内在的数量特征、数量关系和数量变化时,什么方法可以达到这一目的就采用什么方法,方法的选择完全取决于数据的特点和研究目的。

(3)分析工具简单直观,更易于普及。探索性数据分析强调直观及数据可视化,使分析者能一日了然地看出数据中隐含的有价值的信息,显示出其遵循的普遍规律及与众不同的突出特点,促进发现规律,得到启迪,满足分析者的多方而要求,这也是探索性数据分析策略对于数据分析工作的主要贡献。

2.2.2.基本统计分析 1.描述统计分析

1)描述集中趋势的指标:

常用的有算术均数(mean)、几何均数(geometric mean)和中位数(median)等

其中算术均数适用于正态分布和对称分布的资料;

几何均数适用于经对数转换后呈对称分布的资料,它不能用本章讲解的模块直接求出;

中位数适用于各种分布类型的资料,尤其是偏态分布资料和一端或两端无确切数值的资料。

2) 描述离散趋势的指标:

常用的有极差(range)、四分位数间距(quartile range)、方差(variance)、标准差(standard deviation)等。

极差反映一组变量值最大值和最小值之差;

四分位数间距一般和中位数一起描述偏态分布资料的分布特征;

方差和标准差只适合于正态分布的资料。

3)百分位数指标(Percentile):

是一种位置指标,适合于各种分布类型的资料。

4)描述数据分布的统计量(Distribution):

偏度系数、峰度系数。用来说明数据偏离正态分布的程度。

2.频数分析

1)频数表:频数表是数理统计中由于所观测的数据较多,为简化计算,将这些数据按等间隔分组,然后按选举唱票法数出落在每个组内观测值的个数,称为(组)频数。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyxggf.html