数据分析入门-05-数据分析武器库:模型空间概述·数据分析模型 (2)

 所以我们在表达我们的成果的时候,往往还要进行一次映射,将抽象成果 映射为 图形样式,方便模型的传播和理解. 从这个角度来看,关于可视化探索的一些工作也是格外有意义的

数据分析入门-05-数据分析武器库:模型空间概述·数据分析模型

关于有助于认识对象的模型

这个模型空间内部主要是各种我们已知的系统和定义的概念。以生物学和物理学为主要内容。

这部分本质为了方便我们寻找同构问题

例如我们用生物的进化论 类比的去理解人类社会的竞争. 我们用漏斗这个图形,类比商品转化的过程.

但是需要注意的是 寻找同构对象,一方面方便了我们理解对象,也会引导我们忽略对象的一部分特征.

比如:我们拿人类社会的发展 类比进化论的时候,忽略了一个重要事实,我们可以基因编辑,从而大大影响自然选择.

关于价值探讨的模型

这个类别里也沉淀了,人类的大量的思辨智慧,从柏拉图到奥古斯丁,从阿圭那到康德,从笛卡尔到休谟,从加缪到沃格林等等,这些伟大如斯的人终其一生都一直在探索一个永恒的问题:人何以为人. 这部分也很值得我们去学习,但不是今天的重点,以后有机会可以给大家做一个简单介绍.

关于方法论模型

这部分本质上可以概括为对因果关系的探索.分类问题和标记问题也可以理解为"果"单一的因果问题. 对因果关系的探索存在俩个极端. 1.科学:对正确/稳定可复现的极致追求 2.工程:以完成目标为核心,重视经验的积累.这个时候出现了一种调和方案--数据分析,我们既不能全靠经验,这样太依赖个人和运气.我们也不能什么事情都做个科学实验,等做完了黄花菜都凉了.

接下来主要给大家介绍数据分析对于探索因果关系的一些方式.这也是我们做数据分析主要进行的工作.

对因果关系的探索分为充分性和必要性俩个方向.充分性就是如果A,那么一定B;必要性是说我们知道了B的很多特征C,有多大可能性认为A可以推断出B. 主要通过三种方式:1 计算各种系数 2 画散点图 3 画散点图矩阵 4 做线性回归 5 概率估计 (关于相关性和因果性关系又可以写7篇文章了,现实世界中,可以近似的认为 相关性约等于因果关系,或者相关性至少可以为我们寻找因果关系提供一点启发)

用Python进行相关性分析.

画散点图 方法如下

数据分析入门-05-数据分析武器库:模型空间概述·数据分析模型

画散点图矩阵的方法 如下

数据分析入门-05-数据分析武器库:模型空间概述·数据分析模型

计算系数

pearson(皮尔逊)相关系数要求样本满足正态分布

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商,其值介于-1与1之间

数据分析入门-05-数据分析武器库:模型空间概述·数据分析模型

 Sperman秩相关系数 皮尔森相关系数主要用于服从正太分布的连续变量,对于不服从正太分布的变量,分类关联性可采用Sperman秩相关系数,也称 等级相关系数

数据分析入门-05-数据分析武器库:模型空间概述·数据分析模型

通过机器学习的方式探索因果模型

这部分我们会介绍一些最流行的机器学习模型类型。这也是我们发现相关性的一种武器. 监督学习:监督学习算法是基于一组标记数据进行预测的。

比如,历史销售数据可以来预测未来的销售价格。应用监督学习算法,我们需要一个包含标签的训练数据集。我们可以使用这个训练数据集去训练我们的模型,从而得到一个从输入数据到输出期望数据之间的映射函数。 这个模型的推断作用是从一个数据集中学习出一种模式,可以让这个模型适应新的数据,也就是说去预测一些没有看到过的数据。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpywwd.html