数据挖掘:基本概念理解 (3)

  # 数据库系统研究关注为单位和最终用户,创建、维护和使用数据库。特别是,数据库系统研究者们已经建立了数据建模、查询语言、查询处理与优化方法、数据村粗以及索引和存取方法的公认规则。

  # 数据库系统因其在处理非常大的、相对结构化的数据集方面的高度可伸缩性而闻名。

  # 许多数据挖掘任务都需要处理大型数据集,甚至处理实时的快速流数据。因此,数据挖掘可以很好的利用可伸缩的数据库技术,一遍获得在大型数据集上的高效率和可伸缩性。

  # 数据挖掘任务可以用来扩充数据库系统,以便满足高端用户复杂的数据分析需求。

  # 新的数据库系统使用数据仓库和数据挖掘机制,已经在数据库的数据上建立了系统的数据分析能力。

  # 数据仓库,集成来自多种数据源和各个时间段的数据,它在多维空间合并数据,形成部分物化的数据立方体。数据立方体不仅有利于多维数据库的OLAP,而且推动了多维数据挖掘。

4)信息检索

  # 信息检索(IR):搜索文档或文档中信息的科学。

  # 文档可以是文本或多媒体,并且可能驻留在Web上。

  # 传统的信息检索与数据库系统之间的差别:

    1、信息检索假定所搜索的数据是无结构的;

    2、信息检索查询主要用关键词,没有复杂的机构(不同与数据库系统中的SQL查询)。

  # 信息检索的典型方法——概率模型。

  # 文档的语言模型:生成文档中词的包的概率密度函数,语言模型之间的相似性可以度量两个文档之间的相似度。

  # 一个文本文档集的主题可以用词汇表上的概率分布建模,称作主题模型。一个文本文档可以涉及多个主题,可以看做主题混合模型。

  # 通过集成信息检索模型和数据挖掘技术,可以找出文档集中的主要主题,对集合中的每个文档,找出所涉及的主要主题。

五、面向的应用 1)智能商务

  1、商务而言,理解顾客、市场、供应、资源、竞争对手等信息,是非常重要的。

  2、商务智能中的联机处理工具依赖于数据仓库和多维数据挖掘。

  3、分类和预测计算是商务智能预测分析的核心。。

2)Web搜索引擎

  1、Web搜索引擎本质上是大型数据挖掘应用。

  2、通常,用户查询的搜索结果用一张表返给用户(有时称作采样(hit)),包含网页、图像和其它类型的文件。

  3、搜索引擎不同于网络目录,网络目录由人工编辑管理,搜索引擎按算法运行,或者是算法和人工输入的混合。

  4、搜索引擎对数据挖掘提出了巨大挑战,大量的并且不断增加的数据,需要数以万计的计算机组成计算机云,共同挖掘。

六、数据挖掘的主要问题 1)挖掘方法

  # 数据挖掘方法应该考虑数据的不确定性、噪声、不完全性等问题。

  1、挖掘各种新的知识类型

    # 数据挖掘任务:数据特征化与区分、关联与相关性分析、分类、回归、聚类、离群点分析、序列分析、趋势和演变分析。

  2、挖掘多维空间中的知识

    # 在不同抽象层的多维(属性)组合中搜索有趣的模式,称为探索式多维数据挖掘。

    # 在数据立方体中挖掘知识可以显著的提高数据挖掘的能力和灵活性。

  3、数据挖掘——跨学科的努力

    # 通过集成来自多学科的新方法可以显著增强数据挖掘的能力。

  4、提升网络环境下的发现能力

    # 大部分的数据对象驻留在连接或互连的环境中,无论是Web、数据库关系、文件还是文档。

    # 多个数据对象之间的语义链接可以用来促进数据的挖掘。

    # 一个数据集中导出的知识可以用来提升“相关”或语义连接的对象集中的知识发现。

  5、处理不确定性、噪声或不完全数据

    # 错误和噪声可能干扰数据挖掘过程,导致错误的模式出现。

    # 数据清理、数据预处理、离群点检测与删除、不确定性推理,都是需要与数据挖掘过程集成的技术。

  6、模式评估和模式或约束指导的挖掘

    # 数据挖掘模式是否有趣,要根据用户来定。

    # 模式的价值是基于给定用户类、用户确信度或期望来定的。

    # 通过使用兴趣度度量或用户指定的约束指导发现过程,可以产生更有趣的模式,压缩搜素空间。

2)用户界面

  # 挖掘过程需要思考的问题:

    # 如何与数据挖掘系统交互?

    # 如何在挖掘过程中融入用户的背景知识?

    # 如何可视化与理解数据挖掘的结果?

  1、交互挖掘

    # 数据挖掘过程应该是高度交互的。

    # 构建灵活的用户界面和探索式挖掘环境,是非常重要的,以便用户与系统交互。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzzywx.html