2)列联表:列联表(contingency table)是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。它是由两个以上的变量进行交叉分类的频数分布表。
3)独立性检验
①卡方检验。检验多个总体比率的相等性、检验两个分类变量的独立性、检验一个总体的概率分布是否服从一个历史概率分布。
②Fisher精确检验,原假设:边界固定的列联表中行和列是相互独立的,不能用于2*2列联表。
③CMH检验的原假设是两个名义变量在第三个变量的每一层中都是条件独立的。
3、相关在完成独立性检验后,如果拒绝原假设,那么两变量之间的相关性如何?使用assocstats总体来说,较大的值意味着强的相关性。
相关系数:相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
协方差:协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
偏相关系数:亦称“净相关”、“纯相关”、“条件相关”。偏相关系数不为零的两个随机变量称做偏相关(参见“偏相关系数”)。偏相关性,是两个随机变量在排除了其余部分或全部随机变量影响情形下的净相关性或纯相关性,是两个随机变量在处于同一体系的其余部分或全部随机变量取给定值的情形下的条件相关性。偏相关分析的主要作用在于,在所有的自变量中,判断哪些自变量对因变量的影响较大,从而选择作为必需的自变量。
4.T检验:在探究中,我们最常见的行为是对两组进行比较,如果结果变量是类别型的就使用前面学过的相关性的显著性检验进行检验,如果是连续型的并且假设其称正态分布,使用t检验。
5.组间差异的非参数检验①两组的比较
Wilcoxon秩和检验是依据两总体中位数之差的一种非参数方法,还有一种是符号检验。目的是通过中位数比较两组是否相同。
②多于两组的比较
如果没有满足方差设计的假设,Kruskal是一种在各组独立的情况下的方式,Friedman是在各组不独立时的方式。也是通过中位数进行检验。
通过以上检验虽然可以拒绝原假设,但检验并没有告诉你哪些地区显著的与其他地区不同。使用U检验可以对两组间进行比较。
③组间差异的可视化
箱线图和核密度图
2.2.3.模式发现降维——线性方法:
主成分分析——PCA
奇异值分解——SVD
非负矩阵分解
Fisher线性判别
本征维数
最近邻法
关联维数
最大似然估计
包数估计
降维——非线性方法:
多维尺度分析——MDS
度量MDS
非度量MDS
流形学习
局部线性嵌入
等距特征映射
海赛特征映射
人工神经网络方法
自组织映射
生成式拓扑映射
曲元分析
数据巡查
总体巡查法
插值巡查法
投影追踪法
独立成分分析
发现类——各种聚类技术……
平滑散点图
……
2.2.4.数据可视化最有价值的图表系列
深度好文 | Matplotlib可视化最有价值的 50 个图表(附完整 Python 源代码)
聚类可视化:
树状图
树图
矩形图
ReClus图
数据图像
分布图形:
直方图(一元、二元、……)
箱线图
分位数图
概率图
q-q图
分位数图
袋状图
测距仪箱线图
多元可视化:
象形图
散点图
动态图
协同图
点阵图
绘点为线
数据巡查
双标图
2.3.数据质量评价
说明:
规范性——数据符合数据标准、数据模型、业务规则、无数据或权威参考数据的程度。
完整性——按照数据规则要求,数据元素被赋予数值的程度。
准确性——数据准确表示其所描述的其实实体(实际对象)真实值的程度。
一致性——数据与其他特定上下文中使用的数据无矛盾的程度。
时效性——数据在时间变化中的正确程度。
可访问性—— 数据能被访问的程度。
更为详细的内容请参考国家标准:
GB T 36344-2018 信息技术 数据质量评价指标
三、数据准备(Data preparation)、数据预处理