# 交互式挖掘允许用户在挖掘过程中动态的改变搜索的聚焦点,根据返回的结果提炼挖掘请求,并在数据和知识空间交互的进行下钻、切块、旋转,动态的探索“立方体空间”。
2、结合背景知识
# 应把背景知识、约束、规则和关于所研究领域的其他信息结合到挖掘过程中,这些知识可用于模式评估,指引搜索有趣的模式。
3、特定的数据挖掘和数据挖掘查询语言
# 查询语言(如SQL)在灵活的搜索中扮演了重要的角色,因为它允许用户提出特定的查询。
4、数据挖掘结果的表示和可视化
# 数据挖掘系统是交互的(如搜索引擎),这点极其重要,这要求系统采用有表达能力的知识表示,以及用户友好的界面和可视化技术。
3)有效性和可伸缩性1、数据挖掘算法的有效性和可伸缩性
# 算法必须是有效的、可伸缩的:数据挖掘算法的运行时间必须是可预计的、短的、可以被应用接受的。
# 有效性、可伸缩性、性能、优化、实时运行能力,是驱动驱动数据挖掘算法开发的关键标准。
2、并行、分布式和增量挖掘算法
# 算法特点:把数据划分成若干“片段”,每个片段并行处理,搜索模式。
# 原因:数据集容量巨大、数据的广泛分布、一些数据挖掘算法的计算复杂性。(有些数据挖掘过程的高开销和输入的增量特点,推动了增量数据挖掘)
# 增量挖掘与新的数据更新结合在一起,而不必“从头开始”挖掘全部数据。
# 增量算法增量的进行知识修改,修正和加强先前业已发现的知识。
# 并行处理可以交互(如多个刷选条件同时执行),来自每部分的模式最终合并在一起。
# 云计算和集群计算,使用分布式和协同的计算机处理超大规模计算任务,是并行数据挖掘研究的活跃主题。
4)数据库类型的多样性# 数据库类型的多样性给挖掘任务带来了挑战:
1、处理复杂的数据类型
# 关系型数据库和数据仓库数据这样的结构化数据到半结构化数据和无结构化数据,从静态的数据库到动态的数据库,从简单的数据对象到时间数据、生物序列数据、传感器数据、空间数据、超文本数据、多媒体数据、软件程序代码、Web数据和社会网络数据,由于数据类型的多样性和数据挖掘的目标不同,一个系统做不到挖掘所有类型的数据。
2、挖掘动态的、网络的、全球的数据库
# 难点:众多数据源被国际互联网和各种网络连接在一起,形成了一个庞大的、分布的和异构的全球信息系统和网络,而且数据拥有结构化、半结构化和非结构化的不同数据语义。
# 好处:与从孤立的数据库的小数据集中发现的知识相比,挖掘庞大的、互连的信息网络可能帮助在异种数据集中发现更多的模式和知识。
七、总结1)需求是发明之母。
2)数据挖掘是从海量的数据中发现有趣模式的过程。
# 作为知识发现过程,数据挖掘通常包括:数据清理、数据集成、数据选择、数据变换、模式发现、模式评估、知识表示。
3)有趣的模式
# 有趣的模式:如果一种模式在某种确信度上对于检验数据是有效的、新颖的、潜在有用的,并且易于被人理解的。
# 有趣的模式代表知识。
# 模式兴趣度度量,无论是客观的还是主观的,都可以用来指导发现过程。
4)数据挖掘的多维视图
# 维:指数据、知识、技术、应用。
5)只要数据对目标应用有意义,数据挖掘可以在任何类型的数据上进行。
6)数据仓库
# 数据仓库中的数据,来自多个数据源,在一种同一的模式下存放,并且通常是汇总的。
# 数据仓库提供一些数据分析能力,称作联机分析处理。
7)多维数据挖掘