在过去几年中,许多基于预测模型的数据产品孕育而生。这些产品既包括天气预报,同时还有提供预测航班时刻的推荐引擎,该引擎预测的准确率比航空公司自身的预测率还要高。但这些产品仍然只是做出预测,并没有考虑到预测的结果能为人们带来什么。预测技术可以是非常有趣的同时也有非常美的数学造诣,但我们仍需要采取进一步地研究它们。该技术旨在构建可以彻底改变整个行业的数据产品。既然这样,我们为什么不去设计研究它?
为了开启这一过程,我们推荐使用一种在保险行业中成功运用的四步法。我们将其称为动力传动系统方法,其灵感来自新兴的自动驾驶领域。 工程师首先要确定一个明确的目标:他们希望汽车在没有人为干预的情况下能够从A点安全驾驶到B点。有效的预测模型是解决这个问题的重要因素,但它并不孤立存在; 随着产品变得越来越复杂,它的作用也在逐渐减弱。使用谷歌自动驾驶汽车的人完全没有意识到正是数百种(如果不是数千种的话)模型和数PB的数据使其运转起来。但随着数据科学家构建越来越复杂的产品,系统化的设计方法越来越被科学家们所需要。我们并未声称动力传动系统方法是最佳或唯一的方法;我们的目标是搭建数据科学和商业领域的桥梁从而实现我们的愿景。
基于目标的数据产品
我们正在进入数据作为驱动动力的时代,我们不但使用数据来生成更多数据(以预测的形式),而且使用数据来达到我们想要的结果。这是动力传动系统方法的目标。我们可以通过一个非常熟悉的数据产品-搜索引擎来说明一下这个过程。早在1997年,AltaVista就是算法搜索领域的佼佼者。虽然他们的模型擅长查找相关网站,但用户最感兴趣的答案通常隐藏在搜索结果的第100页。随后,谷歌的出现改变了在线搜索,谷歌的诞生是伴随着一个简单的问题:用户输入搜索查询的主要目的是什么?
谷歌意识到人们搜索的目的是展示最相关的搜索结果;对于其他公司而言,他们的目的可能是增加利润,改善客户体验,找到最佳路径,或平衡数据中心的负载。一旦我们确定了目标,第二步就是确定什么是我们可以控制的系统输入,什么是我们可以用来影响最终的结果。以谷歌为例,他们可以控制搜索结果的排名。第三步是考虑什么样的新数据可以产生这种排名;他们意识到页面之间的链接所隐含的信息可用于此目的。只有在前三个步骤之后,我们才开始考虑构建预测模型。我们的目标和可调因素,我们已经拥有的数据以及我们需要收集的其他数据,这些决定了我们可以构建的模型。模型将可调因素和任何不可控制的变量作为输入;模型的输出可以组合起来预测我们目标的最终状态。
对谷歌而言,动力传动系统方法的第4步是科技历史的一部分:Larry Page和Sergey Brin发明了图遍历算法PageRank,并在其上搭建了一个搜索引擎,该引擎给搜索带来了革命性的改变。但是您不必发明下一个PageRank算法来构建伟大的数据产品。我们将展示第4步的系统方法,该方法并不需要您拥有计算机科学博士学位。
模型的装配:最优决策组的一个实际案例
优化正确预测模型的可操作结果对公司而言是最重要的战略决策。对于一家保险公司来说,政策价格就是产品,因此最优的定价模式是如何自动化的将这些产品装配起来。保险公司拥有数百年的预测经验,但就在最近十年间,保险公司就经常就每个新客户应该收取的价格方面不能做出最佳商业决策。他们的精算师可以建立模型来预测客户发生事故的可能性以及索赔的预期价值。但这些模型并没有解决定价问题,因此保险公司结合猜测和市场研究来设定价格。
这种状态的改变是由1999年一家名为最优决策组(ODG)的公司造成的。 ODG利用早期的动力传动系统方法和能够应用于一系列问题的第4步操作来解决这个问题。他们首先确定了保险公司试图实现的目标:从长远来看,设定一个能够最大化新客户的利润净现值的价格,但要受到某些限制,例如维持市场份额。从那时开始,他们制定了一个优化的定价流程,这为保险公司带来了数亿美元的利润。[注:共同作者Jeremy Howard创立了ODG]
ODG明确了保险公司可以控制哪些变量:每个客户收取什么价格,要涵盖哪些类型的事故,要在营销和客户服务上投入多少钱,以及如何应对竞争对手的定价决策。他们还考虑了除上述控制因素之外的其他因素,如竞争对手的战略,宏观经济条件,自然灾害和客户的特性。他们考虑到需要什么样的额外数据来预测客户对价格变化的反应。他们认为在数月内随机更改数十万条条例的价格来构建此数据集是非常必要的。虽然保险公司不愿意对真实客户进行这些实验,因为他们肯定会失去一些客户,但他们考虑到优化定价可能带来的巨大收益,他们还是接受了。最后,ODG开始设计可用于优化保险公司利润的模型。