数据科学完整流程概述

数据科学交流群,QQ群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入!

此文章的目的旨在统一各种分析过程中的术语以及流程,并试图构建更为完整、更为详尽的处理流程,针对不同场景下不同规模的数据集,此框架应该根据实际情况进行适当的裁剪!!!

注意:此版本只是一个粗糙的版本,随着学习的深入,后续可能会不断更新,如果有什么问题,请在评论区留言,或者进入我新建的数据科学群一起讨论!

目录

〇、商业理解(Business Understanding

本节内容内容照搬CRISP-DM1.0中的内容,不过该阶段更多时候是一个仁者见仁、智者见智的状态,毕竟商业上很多知识都来自于各行业从业者或者管理者们的实践而得,没有一个统一的标准。

数据科学完整流程概述

更多细节内容可以参照这份文档进行学习:

CRISP-DM1.0循序渐进数据挖掘指南

点击以上链接即可下载!!!

一、数据收集(Data Collection) 1.1.收集方法

关于数据采集的方式和方法,可以参照我之前写的一篇文档:

常用的数据采集方法有哪些? - PurStar - 博客园
https://www.cnblogs.com/purstar/p/14224062.html

2.2.原始数据收集报告

可以在收集数据的时候写出一份原始数据收集报告,大概内容如下:

列出获得的数据集(或多个数据集),包括它们在项目中的位置,获得的方法及遇到的问题。记录遇到的问题和解决方案有助于迁移到将来项目或者推进类似项目。 ……

二、数据理解(Data Understanding) 2.1.数据描述

描述数据可以采用如下相关的一些概念,当然根据实际情况,可能还有其他更多数据的属性可以用作描述:

数据来源(一手数据、二手数据)

数据存储(文件系统、数据库、云存储……)

数据格式(CSV、TXT、PDF、……)

数据字符编码(ASCII、UTF-8、GBK 和 GB2312、Unicode、……)

数据规模(数据规模的大小可能会决定后面数据处理或分析的工具):

单表行数

单表列数

多表之间的关系

整体所占空间的大小

数据结构类型:结构化、半结构化、非结构化(一般流程是将半结构化或者非结构化的数据转换为结构化数据再进行处理,详细概念可以参考这篇内容 数据类型的多样性:结构化数据、半结构化数据、非结构化数据 - PurStar - 博客园)

数据粒度:细化程度越高,粒度越小;细化程度越低,粒度越大。例如具体城市比省份或者国家更精细等等……

数据的精确含义:查看列或者行所代表的含义,一般数据比较大的情况下,会查看前几行或后几行等等,如果有数据字典那就更好了!

数据字典:数据字典是指对数据的数据项、数据结构、数据流、数据存储、处理逻辑等进行定义和描述。

变量类型:

名义变量:统计学术语,是以货币单位为基准的变量。

实际变量:实际变量不包含价格变动因素,名义的包含;把名义变量剔除价格变动因素就是实际变量 。

定量数据:定量数据本质上是数值,应该是衡量某样东西的数量。

定性数据:定性数据本质上是类别,应该是描述某样东西的性质。

定类变量:又称“定类尺度”。根据定性的原则区分总体各个案类别的变量。

定序变量:定序变量是变量的一种,区别同一类别个案中等级次序的变量。

定距变量:定距变量也称间距变量,是取值具有"距离”特征的变量。

定比变量:定比变量又称“定比尺度”或“比率尺度”。区别同一类别个案中等级次序及其距离的变量。

数据等级的总结:

 下表总结里 每个等级上可行与不可行的操作:

数据科学完整流程概述

 

 下表展示了每个等级上可行与不可行的统计类型:

数据科学完整流程概述

 

 下表显示了每个等级上可以或不可以绘制的图表:

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyxggf.html