数据科学完整流程概述 (3)

日期：2021-08-20 栏目：程序人生浏览：次

2）列联表：列联表（contingency table）是观测数据按两个或更多属性（定性变量）分类时所列出的频数表。它是由两个以上的变量进行交叉分类的频数分布表。

3）独立性检验

①卡方检验。检验多个总体比率的相等性、检验两个分类变量的独立性、检验一个总体的概率分布是否服从一个历史概率分布。

②Fisher精确检验，原假设：边界固定的列联表中行和列是相互独立的，不能用于2*2列联表。

③CMH检验的原假设是两个名义变量在第三个变量的每一层中都是条件独立的。

3、相关

在完成独立性检验后，如果拒绝原假设，那么两变量之间的相关性如何?使用assocstats总体来说，较大的值意味着强的相关性。

相关系数：相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标，是研究变量之间线性相关程度的量，一般用字母 r 表示。由于研究对象的不同，相关系数有多种定义方式，较为常用的是皮尔逊相关系数。

协方差：协方差（Covariance）在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。

偏相关系数：亦称“净相关”、“纯相关”、“条件相关”。偏相关系数不为零的两个随机变量称做偏相关(参见“偏相关系数”)。偏相关性，是两个随机变量在排除了其余部分或全部随机变量影响情形下的净相关性或纯相关性，是两个随机变量在处于同一体系的其余部分或全部随机变量取给定值的情形下的条件相关性。偏相关分析的主要作用在于，在所有的自变量中，判断哪些自变量对因变量的影响较大，从而选择作为必需的自变量。

4.T检验：

在探究中，我们最常见的行为是对两组进行比较，如果结果变量是类别型的就使用前面学过的相关性的显著性检验进行检验，如果是连续型的并且假设其称正态分布，使用t检验。

5.组间差异的非参数检验

①两组的比较

Wilcoxon秩和检验是依据两总体中位数之差的一种非参数方法，还有一种是符号检验。目的是通过中位数比较两组是否相同。

②多于两组的比较

如果没有满足方差设计的假设，Kruskal是一种在各组独立的情况下的方式，Friedman是在各组不独立时的方式。也是通过中位数进行检验。

通过以上检验虽然可以拒绝原假设，但检验并没有告诉你哪些地区显著的与其他地区不同。使用U检验可以对两组间进行比较。

③组间差异的可视化

箱线图和核密度图

2.2.3.模式发现

降维——线性方法：

主成分分析——PCA

奇异值分解——SVD

非负矩阵分解

Fisher线性判别

本征维数

数据科学完整流程概述 (3)

相关推荐