# 对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。也就是说,对象(一类样本)的簇(cluster,一类样本共同的特征)这样形成,使得相比之下在同一簇中的对象(样本)具有很高的相似性,而与其它簇中的对象很不相似。
# 聚类分析所形成的每一个簇(也就是一种分类)都可以看做一个对象类,由它可以导出规则(符号此规则的样本就可以归为该簇(或该类))。
# 聚类便于分类法的形成,将观测组织成类分层结构,把类似的事件组织在一起。
5)离群点分析# 离群点:数据集中,与其它样本的一般行为或模型不一致的样本。
# 大部分数据挖掘方法都将离群点视为噪声或异常而丢弃,然而,有一些应用中,罕见事件可能比正常出现的时间更令人感兴趣。
# 离群点数据分析也称作“离群点分析”或“异常挖掘”。
6)模式的兴趣度# 有趣的模式代表知识,其特点:
1、易于被人理解;(也可以理解该挖掘方法的可解释性)
2、在某种确信度上,对于新的或检验数据是有效的;(也就是具有一定的泛化能力)
3、是潜在有用的;(即使当下没有挖掘任务需要,但未来可能会使用)
4、是新颖的;
# 模式兴趣度的客观度量:支持度、置信度;(有助于识别有趣的模式)
1、规则的支持度,表示事务数据库中满足规则的事务所占的百分比;(可以表示概率,P(X U Y),同时包含 X 和 Y 的事务的概率)
形式:support(X => Y) = P(X U Y)
2、规则的置信度,评估所发现的规则的确信程度(类似模型准确率);(可以去条件概率,P(X | Y),既包含 X 的事务也包含 Y 的概率)
形式:confidence(X => Y) = P(X | Y)
# 一般的,每个兴趣度都与一个阈值有关联,该阈值可以由用户控制(如刷选条件),低于阈值的规则可能反应噪声、异常或少数情况,可能不太有价值。
# 其它兴趣度度量包括分类(IF - THEN)规则的准确率与覆盖率。
# 模式兴趣度的主观度量:反应特定用户需求和兴趣,是基于用户对数据的信念。
# 模式兴趣度度量是不可或缺的,一般在挖掘之后使用,可以跟进各种模式的兴趣度对所使用的模式进行排位,过滤掉不感兴趣的模式。也可以用来指导和约束发现挖掘模式的过程,通过剪去模式空间中不满足预先设定的兴趣度约束子集,提高搜素性能。
四、数据挖掘使用的技术# 涉及的知识领域:统计学、机器学习、模式识别、可视化、算法、数据库和数据仓库、信息检索、高性能计算和许多应用领域的大型技术等。
1)统计学# 统计学:研究数据的收集、分析、解释、表示。
# 统计学模型:用随机变量及其概率分布,刻画目标样本的行为,被广泛用于对数据和数据类建模。
# 统计学方法:用来汇总或描述数据集,也可以用来验证数据挖掘结果。
# 许多统计学方法具有很高的计算复杂度,当用于分布在多个逻辑或物理站点上的大型数据集时,应小心设计和调整算法,以降低计算开销。
2)机器学习1、监督学习:分类的同义词。
# 学习过程中的监督来自训练数据集中样本的标记;
2、无监督学习:聚类的同义词。
# 输入的数据集中的样本没有被标记。
3、半监督学习:数据集中使用标记的和未标记的样本。
# 标记的样本训练模型,未标记的样本用来进一步改进类边界(也就是改进簇的规则)。
4、主动学习:让用户在学习过程中扮演主动角色。
# 要求用户(例如领域专家)对一个可能来自未标记的实例集或由学习程序合成的实例进行标记。
# 特点:通过主动地从用户获取知识来提高模型质量。
3)数据库系统和数据仓库