数据科学完整流程概述 (5)

日期：2021-08-20 栏目：程序人生浏览：次

异名同义：例如我们的团队中有个“涛哥”，名字叫做“张涛”，很多场合下我们得知道这是一个人。又譬如“李白”和“李太白”指的就是一个人。又譬如我们会习惯性的给某个人加上职位性的称谓，譬如说“陈主任”、“王博士”、“周院长”等等。我们需要能够将这些称谓与之真姓名对应起来。

单位统一：用于描述同一个实体的属性有的时候可能会出现单位不统一的情况，也需要能够统一起来，譬如1200cm与1.2m，要知道计算机在进行处理的时候是没有量纲的，要么统一量纲，要么去量纲化（归一化）。

ID-Mapping：ID-Mapping实际上是一个互联网领域的术语，意思是将不同数据库或者帐号系统中的人对应起来。譬如说你办了中国移动的手机卡，他们就会知道你用的是某个手机号，而如果你使用今日头条你就会留下各种浏览新闻的痕迹，如果现在中国移动要和今日头条合作，那么就得打通两边的数据，“打通”的第一步就是知道中国移动的张三就是今日头条的张三，这个过程在当下可以通过设备的IMIS号码进行比照进行，其他的ID-Mapping需要采取不同的策略。归根到底，ID-Mapping需要的是采用唯一识别号（学号，学校-年级-班级-姓名，设备号等）进行帐号的用户匹配。这在大数据强调的数据孤岛问题解决上有着重要的意义。

数据冗余：

数据冗余可能来源于数据属性命名的不一致，在解决数据冗余的过程中对于数值属性可以利用皮尔逊积矩Ra,b来衡量，它是一个位于[-1,1]之间的数值,大于零那么属性之间呈现正相关，否则为反相关。绝对值越大表明两者之间相关性越强。对于离散数据可以利用卡方检验来检测两个属性之间的关联。

冗余可以被相关分析检测到。例如，给定两个属性，根据可用的数据，这种分析可以度量一个属性能在多大程度上蕴涵另一个。对于标称数据，我们使用卡方检验。对于数值属性，我们使用相关系数和协方差，它们都评估一个属性的值如何随另一个变化。

数据冲突：

成的第三个重要问题是数据值冲突的检测与处理。例如，对于现实世界的同一实体，来自不同数据源的属性值可能不同。这可能是因为表示、比例或编码不同。例如，重量属性可能在一个系统中以公制单位存放，而在另一个系统中以英制单位存放。不同旅馆的价格不仅可能涉及不同的货币，而且可能涉及不同的服务（如免费早餐）和税。数据这种语义上的异种性，是数据集成的巨大挑战。

仔细将多个数据源中的数据集成起来，能够减少或避免结果数据集中数据的冗余和不一致性。这有助于提高其后挖掘的精度和速度。

3.5.数据变换： 1）平滑：

去掉数据中的噪音。这种技术包括

分箱：分箱方法通过考察“邻居”（即，周围的值）来平滑存储数据的值。存储的值被分布到一些“桶”或箱中。由于分箱方法导致值相邻，因此它进行局部平滑。

聚类：局外者可以被聚类检测。聚类将类似的值组织成群或“聚类”。直观地，落在聚类集合之外的值被视为局外者。

回归：可以通过让数据适合一个函数（如回归函数）来平滑数据。线性回归涉及找出适合两个变量的“最佳”直线，使得一个变量能够预测另一个。

2）聚集（颗粒度转化）：

对数据进行汇总和聚集。例如，可以聚集日销售数据，计算月和年销售额。通常，这一步用来为多粒度数据分析构造数据方。

3）数据泛化：

使用概念分层，用高层次概念替换低层次“原始”数据。例如，分类的属性，如 street，可以泛化为较高层的概念，如 city 或 country。类似地，数值属性，如 age，可以映射到较高层
概念，如 young, middle-age 和 senior。

4）规范化：

将属性数据按比例缩放，使之落入一个小的特定区间，如-1.0 到 1.0 或 0.0 到 1.0。

最小-最大规范化

z-score 规范化

按小数定标规范化

5）属性构造（或特征构造）：

可以构造新的属性并添加到属性集中，以帮助挖掘过程。

属性构造是由给定的属性构造和添加新的属性，以帮助提高精度和对高维数据结构的理解。例如，我们可能根据属性 height 和 width 添加属性 area。属性结构可以帮助平缓使用判定树算法分类的分裂问题。那里，沿着导出判定树9的一条路径重复地测试一个属性。属性构造操作符的例子包括二进位属性的 and 和名字属性的 product。通过组合属性，属性构造可以发现关于数据属性间联系
的丢失信息，这对知识发现是有用的。

6）格式化

如改变数据排列顺序或次序

3.6.数据规约：

1. 数据方聚集：聚集操作用于数据方中的数据。

转载注明出处：https://www.heiqu.com/zyxggf.html

数据科学完整流程概述 (5)

相关推荐