数据挖掘:从大量数据中挖掘有趣模式和知识的过程。
一、知识发现过程 1)数据预处理1、数据清理:消除噪声和删除不一致数据;
2、数据集成:多种数据源组合在一起。
3、数据选择:从数据库中提取与分析任务相关的数据。
4、数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式。
2)数据挖掘基本步骤、使用智能方法提取数据模式
3)模式评估根据某些兴趣度度量,识别代表知识的真正有趣的模式。
4)知识表示使用可视化和知识表示技术,向用户提供挖掘的知识。
二、可以挖掘的数据类型 1)数据库数据#关系型数据库是数据挖掘最常见、最丰富的信息源,是数据挖掘研究的一种主要数据形式。
2)数据仓库数据仓库:一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。
#特点:
1、数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构成。
2、通常,数据仓库称作数据立方体(data cube)的多维数据结构建模。其中每个维对应于模式中的一个或一组属性,而每个单元存放某种聚集度量值,如 count 或 sum 。
(数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据)
3)事务数据#特点:
1、数据数据库的每一个记录代表一个事务。
2、通常一个事务包含一个唯一的事务标识号(trans_ID),以及一个组成事务的项的列表。
3、事务可以存放在表中,每个事务一个记录。
4)其它类型的数据# 例:时间相关或序列数据、数据流、空间数据(如地图)、工程设计数据、超文本和多媒体数据、图和网状数据和万维网、
三、可以挖掘的类型的模式# 数据挖掘功能:特征化与区分,频繁模式、关联和相关性挖掘,分类与回归,聚类分析,离群点分析。
# 数据挖掘功能用于指定数据挖掘任务发现的模式。(模式,根据不同的挖掘任务,所使用的不同的挖掘方法)
# 数据挖掘任务任务可以分为两类:
1、描述性(descriptive):刻画目标数据中数据的一般性质;
2、预测性(predictive):在当前数据上进行归纳,一遍做出预测;
1)类/概念描述:特征化与区分# 数据可以与类或概念相关联,也就是用汇总的、简洁的、精确的表达方式描述每个类和概念。这种描述就是对数据特征化和区分。
# 描述数据的方法:
1、数据特征化
# 数据特征化:目标数据的一般特性或特征的汇总。
# 数据特征化的结果:饼图、条图、线图、多维数据立方体、包含交叉表在内的多维表。(也可以用广义关系或者规则(称特征规则)形式提供)
# 例,挖掘任务:汇总一年之内在淘宝花费2万元以上的顾客特征。
# 客户数据信息特征化的结果可以是顾客的概况:年龄在30~45岁、有工作、有很好的信用等级。
# 数据挖掘应对允许用户在任意维下钻,一遍根据这些维度观察用户。
2、数据区分
# 数据区分:将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
# 数据区分的结果:类似特征描述,但区分描述应当包括比较度量,以便帮助区别目标类和对比类。
# 例,挖掘任务:比较两组顾客——定期购买手机的顾客和不经常购买这种产品的顾客。
# 结果描述:提供这些顾客比较的概况
2)挖掘频繁模式、关联和相关性1、频繁模式:在数据中频繁出现的模式。
频繁项集:频繁的在事务数据集中一起出现的商品的集合;(如,超市中被许多顾客频繁地一起购买的牛奶和面包)
频繁子序列(又称序列模式):如,淘宝上顾客倾向于先购买手机,再购买保护套,然后再购买手机保护膜,这样一个模式就是一个(频繁)序列模式。
频繁子结构:涉及不同的数据结构形式(如,图、树、格),可以与项集或子序列结合在一起。(如果一个子结构频繁地出现,则称它为(频繁)结构模式)
# 数据挖掘模式导致发现数据中有趣的关联和相关性。
# 例,挖掘任务——哪些商品经常被一起购买。
结果1:buys(X, "computer") => buys(X, "software")[support = 1%, confidence = 50%]
a、X是变量,代表顾客;
b、confidence:置信度或确信度,50% 表示如果一味顾客买了电脑,则其会购买软件的可能性是 50%;
c、support:支持度,1% 意味着,所分析的所有事务的 1% 显示电脑和软件一起被购买;
结果2:简化为 "computer => software [1%, 50%]"
# 通常,一个关联规则被认为是无趣的而被丢弃;也就是,该规则不能同时满足“最小支持度阈值”和“最小置信度阈值”。
# 频繁项集挖掘是频繁模式挖掘的基础。
3)用于预测分析的分类和回归1、相关分析,识别与分类和回归过程显著相关的属性。(也就是分析样本特征之间的相关性)
4)聚类分析# 不同与分类和回归分析标记类的数据集,聚类(clustering)是分析数据对象(也就是样本),而不考虑类标号。
# 许多情况下,样本数据并不存在标记,可以使用聚类产生数据组群的类标号。