数据挖掘：基本概念理解 (2)

日期：2022-03-19 栏目：程序人生浏览：次

　　# 对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。也就是说，对象（一类样本）的簇（cluster，一类样本共同的特征）这样形成，使得相比之下在同一簇中的对象（样本）具有很高的相似性，而与其它簇中的对象很不相似。

　　# 聚类分析所形成的每一个簇（也就是一种分类）都可以看做一个对象类，由它可以导出规则（符号此规则的样本就可以归为该簇（或该类））。

　　# 聚类便于分类法的形成，将观测组织成类分层结构，把类似的事件组织在一起。

5）离群点分析

　　# 离群点：数据集中，与其它样本的一般行为或模型不一致的样本。

　　# 大部分数据挖掘方法都将离群点视为噪声或异常而丢弃，然而，有一些应用中，罕见事件可能比正常出现的时间更令人感兴趣。

　　# 离群点数据分析也称作“离群点分析”或“异常挖掘”。

6）模式的兴趣度

　　# 有趣的模式代表知识，其特点：

　　　　1、易于被人理解；（也可以理解该挖掘方法的可解释性）

　　　　2、在某种确信度上，对于新的或检验数据是有效的；（也就是具有一定的泛化能力）

　　　　3、是潜在有用的；（即使当下没有挖掘任务需要，但未来可能会使用）

　　　　4、是新颖的；

　　# 模式兴趣度的客观度量：支持度、置信度；（有助于识别有趣的模式）

　　　　1、规则的支持度，表示事务数据库中满足规则的事务所占的百分比；（可以表示概率，P(X U Y)，同时包含 X 和 Y 的事务的概率）

　　　　　　形式：support(X => Y) = P(X U Y)

　　　　2、规则的置信度，评估所发现的规则的确信程度（类似模型准确率）；（可以去条件概率，P(X | Y)，既包含 X 的事务也包含 Y 的概率）

　　　　　　形式：confidence(X => Y) = P(X | Y)

　　　　# 一般的，每个兴趣度都与一个阈值有关联，该阈值可以由用户控制（如刷选条件），低于阈值的规则可能反应噪声、异常或少数情况，可能不太有价值。

　　　　# 其它兴趣度度量包括分类（IF - THEN）规则的准确率与覆盖率。

　　# 模式兴趣度的主观度量：反应特定用户需求和兴趣，是基于用户对数据的信念。

　　# 模式兴趣度度量是不可或缺的，一般在挖掘之后使用，可以跟进各种模式的兴趣度对所使用的模式进行排位，过滤掉不感兴趣的模式。也可以用来指导和约束发现挖掘模式的过程，通过剪去模式空间中不满足预先设定的兴趣度约束子集，提高搜素性能。

四、数据挖掘使用的技术

　　# 涉及的知识领域：统计学、机器学习、模式识别、可视化、算法、数据库和数据仓库、信息检索、高性能计算和许多应用领域的大型技术等。

1）统计学

　　# 统计学：研究数据的收集、分析、解释、表示。

　　# 统计学模型：用随机变量及其概率分布，刻画目标样本的行为，被广泛用于对数据和数据类建模。

　　# 统计学方法：用来汇总或描述数据集，也可以用来验证数据挖掘结果。

　　# 许多统计学方法具有很高的计算复杂度，当用于分布在多个逻辑或物理站点上的大型数据集时，应小心设计和调整算法，以降低计算开销。

2）机器学习

　　1、监督学习：分类的同义词。

　　　　# 学习过程中的监督来自训练数据集中样本的标记；

　　2、无监督学习：聚类的同义词。

　　　　# 输入的数据集中的样本没有被标记。

　　3、半监督学习：数据集中使用标记的和未标记的样本。

　　　　# 标记的样本训练模型，未标记的样本用来进一步改进类边界（也就是改进簇的规则）。

　　4、主动学习：让用户在学习过程中扮演主动角色。

　　　　# 要求用户（例如领域专家）对一个可能来自未标记的实例集或由学习程序合成的实例进行标记。

　　　　# 特点：通过主动地从用户获取知识来提高模型质量。

3）数据库系统和数据仓库