(原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 时序算法)

本篇文章同样是继续微软系列挖掘算法总结,前几篇主要是基于状态离散值或连续值进行推测和预测,所用的算法主要是三种:Microsoft决策树分析算法Microsoft聚类分析算法Microsoft Naive Bayes 算法,当然后续还补充了一篇结果预测篇,所涉及的应用场景在前几篇文章中也有介绍,有兴趣的同学可以点击查看,本篇我们将总结的算法为Microsoft时序算法,此算法也是数据挖掘算法中比较重要的一款,因为所有的推算和预测都将利用于未来,而这所有的一切都将有一条时间线贯穿始终,而这将是时序算法的侧重点。

应用场景介绍

通过前几篇文章的介绍,我们已经能预测出影响某种行为的因素有哪些,并且根据这些因素综合挖掘出我们的最优客户群体(将会购买自行车),这也是上面介绍的几种算法的长项,但是会不会觉得从大数据中获取的信息太少了点,与很多问题仅仅通过上面几种算法是推算不出来的,但这些信息恰巧是上层领导关注的,比如说:

1、作为数据分析人员,你能不能根据以往的销售情况预测出明年的销售业绩?这样的问题怎么解决?有哥们会这么解决了,哈...我取去年一年的销售值做平均值,那如果不足一年呢?那要是预测明年一月份的呢?....

2、能不能根据以往的销售情况预测出销售的旺季,像房地产行业的“金九银十”说的就是这个,这些都是资深销售人员的经验总结,但是你能保证公司里面有这种人?即便有你能保证他说的正确?即便正确能保证他说的适合别的产品?即便适合能保证适合不同的地区?....我那个去...这些的这些稍后我们让数据来告诉你!

3、不同地区的销售规律是否一致?也就是说是否为同一种销售策略....哪一种销售策略更适合那一类产品的方式..各种产品之间的销售量是否会有影响、存不存在连带销售?是不适合我们做捆绑销售。

以上的这些问题我们通过Microsoft时序算法都可以解决,而这些问题也就是该算法的应用场景,闲言少叙,我们进入本篇的正题。

技术准备

(1)同样我们利用微软提供的案例数据仓库(AdventureWorksDW2008R2),这这里我们只需要用到一张表,确切的说是一张视图vTimeSeries,其实这里面就是记录的往年不同月份的销售汇总值,稍后我们将详细分析这部分数据。

(2)VS2008、SQL Server、 Analysis Services没啥可介绍的,安装数据库的时候全选就可以了,这里前段时间有人问我为什么他的vs工具没有新建数据挖掘工程的模板,这里提一下,其实vs作为微软的主打开发软件,所以它的更新速度是远远快于数据库更新版本,所以要选择开发数据挖掘解决方案的时候需要在开始菜单中找到SQL Server目录下的vs连接即可。

操作步骤

(1)新建解决方案,然后数据源,然后数据源视图,很简单的步骤,不明白的可以看我们前面几篇文章,我们直接看图

(原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 时序算法)

我们给解决方案取了个名字,然后从数据源中找到了我们需要挖掘的表,将我们需要的表创建好,取了个名字为:SalesByArea,可以看到这张表就是记录往年各个月份的销售记录和销售业绩,下面我们对这个表里面的数据进行粗略分析。

(2)预览数据,分析源数据结构内容

这里我们需要对要分析的数据进行分析,先看看里面有那些内容,是不是满足时序算法的数据要求条件。同样我们右键“浏览数据”,我们选择随机抽样,抽样数据为5000行。具体方法这里不赘述,具体方法可参考前篇文章,我们直接看图

(原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 时序算法)

这里面有几列数据,其实内容挺简单的,我们来看,有自行车品牌和地区、时间线、销售数量、销售额度、年、月、报告日期。从报告日期来看基本上是每个月的25号形成报告,然后每个月生成一份,在利用Microsoft时序算法中对数据是有要求的:

1、要求分析数据序列必须含有时间序列,并且序列值为连续...这个可以理解...如果没有连续值就谈不上推测,因为数据本身他就没有规律可循....

2、要求分析数据序列存在唯一标示值,其实也就说传统意义上面的主键,这个在每个算法中都要用

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgfsdg.html