对于数据挖掘的几点认识[转] (3)

模型建立是数据挖掘的核心阶段。首先,要和相关领域的专家组成团队,明确数据挖掘项目的目的和具体的数据挖掘任务。根据数据挖掘任务,选择相关算法。用不同算法建立不同数据模型,再用专业的模型评估工具比较模型的准确度。即使是同一种算法,参数选取的不同,所建模型的准确度也不一样。

4模型评估

用模型评估工具对模型进行评估,认识发现模式的实际意义。若模型中的模式没有用,必须要重新进行数据清洗和转换、建立模型。数据挖掘是一个循环的过程,要通过反复的循环发现合理的模型。

5报告

报告是数据挖掘成果的主要交付手段。有两种类型的报告:发现模式报告和预测报告。

6预测

在很多数据挖掘项目中,发现模式还不够,还要通过模式进行预测。比如,银行业可以利用已建立的风险评估模型去预测每个新的贷款申请的潜在风险。

7应用集成

将数据挖掘集成到实际应用中,特别是在应用中加入实时预测组件是数据挖掘项目的发展趋势。比如,CRM中有了数据挖掘功能,就可以对客户进行分类。ERP中有了数据挖掘功能,就能够预测产量。

8模型管理

每一个数据挖掘模型都有一定的生命周期,维护好模型也是一项重要工作。不同应用中的模型的稳定期是不一样的,要根据实际情况对模型进行管理。另外,模型管理中还要注意安全问题,避免敏感数据的泄露。

五、数据挖掘算法的使用

当前提出的各种数据挖掘算法不下近百种,但没有任何一种数据挖掘的算法是万能的。算法的具体使用时应注意:

l   不同的算法应用于具体数据的含义和能力不同;

l   一个问题可能有多种算法可以求解但挖掘质量可能有差异;

l   有些算法可以用于多种数据类型,有些算法则对某些数据类型不适用;

l   有些算法的参数选择依赖于经验;

l   有些算法对数据有特殊的要求,需要做某些转换、过滤之类的操作;

l   通过历史数据所建立的模型,其分析和挖掘出的结果,与当前实际客体的行为不一定完全相同,因而在应用挖掘出的知识进行决策时存在非系统性风险。

六、数据挖掘相关公司及产品

kdnuggets.com网站上有详细的数据挖掘领域主要公司及其产品的介绍。其中,主要的公司和产品有:

l   SASSAS公司就市场份额而言是最大的数据挖掘产品产商。SAS在统计领域具有十多年的经验。其数据挖掘产品SAS Enterprise Miner1997就开始推出,目前还在不断发展之中。

l   SPSSSPSS的数据挖掘产品有AnswerTree ClementineAnswerTree 能创建图形化决策树(主要的四种算法是:CHAIDExhaustive CHAID、分类和回归树(C&RT)以及Quest),很容易分析各群体的响应率、发现影响响应率的属性,找到和确定有价值的客户群体。图形化的决策树非常直观,不仅能够描述各个群体的特征,并能其预测响应率。Clementine不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,它还支持数据挖掘的行业标准--CRISP-DM

l   Angoss: Angoss数据挖掘的核心产品包括:挖掘工作站 KnowledgeSTUDIO 和挖掘引擎服务器 KnowledgeSERVERKnowledgeSTUDIO 包含了全面而先进的数据挖掘算法,使商业分析师和高级用户在习惯的工作流程环境中都能进行广泛的分析。KnowledgeSTUDIO支持8种决策树,3种神经网络,2种时间序列,2种聚类,logistic回归和线性回归,协方差分析算法。KnowledgeSTUDIO由一系列可重复使用的组件组成。KnowledgeSTUDIO软件开发工具包(SDK)包含开发数据挖掘应用软件所要求的文件和库。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwyxzx.html