对于数据挖掘的几点认识[转] (2)

数据挖掘的任务主要有分类分析、聚类分析、关联分析、序列分析及时间序列。另外,还有孤立点分析、依赖关系分析、概念描述、偏差检测等。

1、分类分析(Classification Analysis)
  分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是有制导的学习,它利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测,常应用于风险管理、广告投放等商业环境。

2、聚类分析(Clustering Analysis)
  聚类又被称为分隔(segmentatio),聚类分析是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。聚类分析是无制导的学习,聚类分析与分类分析不同,它不依赖于没有事先确定的类,也没有已具有类标识的训练集。好的聚类分析算法应该使得所得到的聚簇内的相似性很高,而不同的聚簇间的相似性很低。
  3、关联分析 (Association Analysis)
  关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。最典型的应用是市场中购物篮分析。
  4、序列分析及时间序列(Sequence Analysis and Time Sequence)
  序列分析及时间序列是指通过序列信息或时间序列搜索出重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处的序列或时间的不同。

四、数据挖掘项目的开发周期

教材中的数据挖掘四阶段的论述不够具体,实际应用中指导性不强,我参考了Data Mining with SQL Server 2005,提高了对数据挖掘项目开发周期的认识。数据挖掘项目的开发周期分为8个步骤。

1数据收集

将要挖掘的数据资源收集到数据库或数据仓库中。若已有数据仓库的主题数据不够丰富,还需从其他相关数据源加入新数据。数据收集完后,还要进行数据合理采样,以减少训练数据集的容量。多数情况下,从50,000客户记录中发现的模式有可能与从1,000,000客户记录中发现的模式是一样的。
  第2数据清洗和转换

数据清洗的目的是消除数据的噪音和其他无关信息。数据转换的目的是根据确定的数据类型和数据值将不同数据源的同类数据进行统一格式。数据清洗和转换常用的相关技术有:数据类型转换、连续值属性转换、分组、集合、去处孤立点等。

3模型建立

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwyxzx.html