数据科学完整流程概述 (5)

异名同义:例如我们的团队中有个“涛哥”,名字叫做“张涛”,很多场合下我们得知道这是一个人。又譬如“李白”和“李太白”指的就是一个人。又譬如我们会习惯性的给某个人加上职位性的称谓,譬如说“陈主任”、“王博士”、“周院长”等等。我们需要能够将这些称谓与之真姓名对应起来。

单位统一:用于描述同一个实体的属性有的时候可能会出现单位不统一的情况,也需要能够统一起来,譬如1200cm与1.2m,要知道计算机在进行处理的时候是没有量纲的,要么统一量纲,要么去量纲化(归一化)。

ID-Mapping:ID-Mapping实际上是一个互联网领域的术语,意思是将不同数据库或者帐号系统中的人对应起来。譬如说你办了中国移动的手机卡,他们就会知道你用的是某个手机号,而如果你使用今日头条你就会留下各种浏览新闻的痕迹,如果现在中国移动要和今日头条合作,那么就得打通两边的数据,“打通”的第一步就是知道中国移动的张三就是今日头条的张三,这个过程在当下可以通过设备的IMIS号码进行比照进行,其他的ID-Mapping需要采取不同的策略。归根到底,ID-Mapping需要的是采用唯一识别号(学号,学校-年级-班级-姓名,设备号等)进行帐号的用户匹配。这在大数据强调的数据孤岛问题解决上有着重要的意义。

数据冗余:

 数据冗余可能来源于数据属性命名的不一致,在解决数据冗余的过程中对于数值属性可以利用皮尔逊积矩Ra,b来衡量,它是一个位于[-1,1]之间的数值,大于零那么属性之间呈现正相关,否则为反相关。绝对值越大表明两者之间相关性越强。对于离散数据可以利用卡方检验来检测两个属性之间的关联。

冗余可以被相关分析检测到。例如,给定两个属性,根据可用的数据,这种分析可以度量一个属性能在多大程度上蕴涵另一个。对于标称数据,我们使用卡方检验。对于数值属性,我们使用相关系数和协方差,它们都评估一个属性的值如何随另一个变化。

数据冲突:

成的第三个重要问题是数据值冲突的检测与处理。例如,对于现实世界的同一实体,来自不同数据源的属性值可能不同。这可能是因为表示、比例或编码不同。例如,重量属性可能在一个系统中以公制单位存放,而在另一个系统中以英制单位存放。不同旅馆的价格不仅可能涉及不同的货币,而且可能涉及不同的服务(如免费早餐)和税。数据这种语义上的异种性,是数据集成的巨大挑战。

仔细将多个数据源中的数据集成起来,能够减少或避免结果数据集中数据的冗余和不一致性。这有助于提高其后挖掘的精度和速度。

3.5.数据变换: 1)平滑:

去掉数据中的噪音。这种技术包括

分箱:分箱方法通过考察“邻居”(即,周围的值)来平滑存储数据的值。存储的值被分布到一些“桶”或箱中。由于分箱方法导致值相邻,因此它进行局部平滑。

聚类:局外者可以被聚类检测。聚类将类似的值组织成群或“聚类”。直观地,落在聚类集合之外的值被视为局外者。 

回归:可以通过让数据适合一个函数(如回归函数)来平滑数据。线性回归涉及找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。

2)聚集(颗粒度转化):

对数据进行汇总和聚集。例如,可以聚集日销售数据,计算月和年销售额。通常,这一步用来为多粒度数据分析构造数据方。

3)数据泛化:

使用概念分层,用高层次概念替换低层次“原始”数据。例如,分类的属性,如 street,可以泛化为较高层的概念,如 city 或 country。类似地,数值属性,如 age,可以映射到较高层
概念,如 young, middle-age 和 senior。

4)规范化:

将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到 1.0 或 0.0 到 1.0。

最小-最大规范化

z-score 规范化

按小数定标规范化

5)属性构造(或特征构造):

可以构造新的属性并添加到属性集中,以帮助挖掘过程。

属性构造是由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解。例如,我们可能根据属性 height 和 width 添加属性 area。属性结构可以帮助平缓使用判定树算法分类的分裂问题。那里,沿着导出判定树9的一条路径重复地测试一个属性。属性构造操作符的例子包括二进位属性的 and 和名字属性的 product。通过组合属性,属性构造可以发现关于数据属性间联系
的丢失信息,这对知识发现是有用的。 

6)格式化

如改变数据排列顺序或次序

3.6.数据规约:

1. 数据方聚集: 聚集操作用于数据方中的数据。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyxggf.html