数据挖掘:基本概念理解 (2)

  # 对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。也就是说,对象(一类样本)的簇(cluster,一类样本共同的特征)这样形成,使得相比之下在同一簇中的对象(样本)具有很高的相似性,而与其它簇中的对象很不相似。

  # 聚类分析所形成的每一个簇(也就是一种分类)都可以看做一个对象类,由它可以导出规则(符号此规则的样本就可以归为该簇(或该类))。

  # 聚类便于分类法的形成,将观测组织成类分层结构,把类似的事件组织在一起。

5)离群点分析

  # 离群点:数据集中,与其它样本的一般行为或模型不一致的样本。

  # 大部分数据挖掘方法都将离群点视为噪声或异常而丢弃,然而,有一些应用中,罕见事件可能比正常出现的时间更令人感兴趣。

  # 离群点数据分析也称作“离群点分析”或“异常挖掘”。

6)模式的兴趣度

  # 有趣的模式代表知识,其特点:

    1、易于被人理解;(也可以理解该挖掘方法的可解释性)

    2、在某种确信度上,对于新的或检验数据是有效的;(也就是具有一定的泛化能力)

    3、是潜在有用的;(即使当下没有挖掘任务需要,但未来可能会使用)

    4、是新颖的;

  # 模式兴趣度的客观度量:支持度、置信度;(有助于识别有趣的模式)

    1、规则的支持度,表示事务数据库中满足规则的事务所占的百分比;(可以表示概率,P(X U Y),同时包含 X 和 Y 的事务的概率)

      形式:support(X => Y)  =  P(X U Y)

    2、规则的置信度,评估所发现的规则的确信程度(类似模型准确率);(可以去条件概率,P(X | Y),既包含 X 的事务也包含 Y 的概率)

      形式:confidence(X => Y)  =  P(X | Y)

    # 一般的,每个兴趣度都与一个阈值有关联,该阈值可以由用户控制(如刷选条件),低于阈值的规则可能反应噪声、异常或少数情况,可能不太有价值。

    # 其它兴趣度度量包括分类(IF - THEN)规则的准确率与覆盖率。

  # 模式兴趣度的主观度量:反应特定用户需求和兴趣,是基于用户对数据的信念。

  # 模式兴趣度度量是不可或缺的,一般在挖掘之后使用,可以跟进各种模式的兴趣度对所使用的模式进行排位,过滤掉不感兴趣的模式。也可以用来指导和约束发现挖掘模式的过程,通过剪去模式空间中不满足预先设定的兴趣度约束子集,提高搜素性能。

四、数据挖掘使用的技术

  # 涉及的知识领域:统计学、机器学习、模式识别、可视化、算法、数据库和数据仓库、信息检索、高性能计算和许多应用领域的大型技术等。

1)统计学

  # 统计学:研究数据的收集、分析、解释、表示。

  # 统计学模型:用随机变量及其概率分布,刻画目标样本的行为,被广泛用于对数据和数据类建模。

  # 统计学方法:用来汇总或描述数据集,也可以用来验证数据挖掘结果。

  # 许多统计学方法具有很高的计算复杂度,当用于分布在多个逻辑或物理站点上的大型数据集时,应小心设计和调整算法,以降低计算开销。

2)机器学习

  1、监督学习:分类的同义词。

    # 学习过程中的监督来自训练数据集中样本的标记;

  2、无监督学习:聚类的同义词。

    # 输入的数据集中的样本没有被标记。

  3、半监督学习:数据集中使用标记的和未标记的样本。

    # 标记的样本训练模型,未标记的样本用来进一步改进类边界(也就是改进簇的规则)。

  4、主动学习:让用户在学习过程中扮演主动角色。

    # 要求用户(例如领域专家)对一个可能来自未标记的实例集或由学习程序合成的实例进行标记。

    # 特点:通过主动地从用户获取知识来提高模型质量。

3)数据库系统和数据仓库

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzzywx.html