数据科学完整流程概述 (3)

2)列联表:列联表(contingency table)是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。它是由两个以上的变量进行交叉分类的频数分布表。

3)独立性检验

①卡方检验。检验多个总体比率的相等性、检验两个分类变量的独立性、检验一个总体的概率分布是否服从一个历史概率分布。

②Fisher精确检验,原假设:边界固定的列联表中行和列是相互独立的,不能用于2*2列联表。

③CMH检验的原假设是两个名义变量在第三个变量的每一层中都是条件独立的。

3、相关

在完成独立性检验后,如果拒绝原假设,那么两变量之间的相关性如何?使用assocstats总体来说,较大的值意味着强的相关性。

相关系数:相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。

协方差:协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

偏相关系数:亦称“净相关”、“纯相关”、“条件相关”。偏相关系数不为零的两个随机变量称做偏相关(参见“偏相关系数”)。偏相关性,是两个随机变量在排除了其余部分或全部随机变量影响情形下的净相关性或纯相关性,是两个随机变量在处于同一体系的其余部分或全部随机变量取给定值的情形下的条件相关性。偏相关分析的主要作用在于,在所有的自变量中,判断哪些自变量对因变量的影响较大,从而选择作为必需的自变量。

4.T检验:

在探究中,我们最常见的行为是对两组进行比较,如果结果变量是类别型的就使用前面学过的相关性的显著性检验进行检验,如果是连续型的并且假设其称正态分布,使用t检验。

5.组间差异的非参数检验

①两组的比较

Wilcoxon秩和检验是依据两总体中位数之差的一种非参数方法,还有一种是符号检验。目的是通过中位数比较两组是否相同。

②多于两组的比较

如果没有满足方差设计的假设,Kruskal是一种在各组独立的情况下的方式,Friedman是在各组不独立时的方式。也是通过中位数进行检验。

通过以上检验虽然可以拒绝原假设,但检验并没有告诉你哪些地区显著的与其他地区不同。使用U检验可以对两组间进行比较。

③组间差异的可视化

箱线图和核密度图

2.2.3.模式发现

降维——线性方法:

主成分分析——PCA

奇异值分解——SVD

非负矩阵分解

Fisher线性判别

本征维数

最近邻法

关联维数

最大似然估计

包数估计

降维——非线性方法:

多维尺度分析——MDS

度量MDS

非度量MDS

流形学习

局部线性嵌入

等距特征映射

海赛特征映射

人工神经网络方法

自组织映射

生成式拓扑映射

曲元分析

数据巡查

总体巡查法

插值巡查法

投影追踪法

独立成分分析

发现类——各种聚类技术……

平滑散点图

……

2.2.4.数据可视化

最有价值的图表系列

深度好文 | Matplotlib可视化最有价值的 50 个图表(附完整 Python 源代码)

聚类可视化:

树状图

树图

矩形图

ReClus图

数据图像

分布图形:

直方图(一元、二元、……)

箱线图

分位数图

概率图

q-q图

分位数图

袋状图

测距仪箱线图

多元可视化:

象形图

散点图

动态图

协同图

点阵图

绘点为线

数据巡查

双标图

2.3.数据质量评价

 

数据科学完整流程概述

  说明:

规范性——数据符合数据标准、数据模型、业务规则、无数据或权威参考数据的程度。

完整性——按照数据规则要求,数据元素被赋予数值的程度。

准确性——数据准确表示其所描述的其实实体(实际对象)真实值的程度。

一致性——数据与其他特定上下文中使用的数据无矛盾的程度。

时效性——数据在时间变化中的正确程度。

可访问性—— 数据能被访问的程度。

更为详细的内容请参考国家标准:

GB T 36344-2018 信息技术 数据质量评价指标

三、数据准备(Data preparation)、数据预处理

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyxggf.html