以目标作为出发点,这催促数据科学家思考什么样的模型是他们需要的。我们可以保留已经建立的“喜欢”模型以及有或没有建议的购买因果关系模型,然后采用分阶段方法添加我们认为可以提高营销效果的其他模型。我们可以添加价格弹性模型来测试提供折扣是如何改变客户购买商品的概率的。我们可以构建一个耐心模型测试用户对于低效沟通的忍耐力:他们什么时候会将我们的消息直接过滤到垃圾邮件?(“如果Hulu再一次向我展示同样的狗粮,我将不会再访问这个网站!”)。一个购买序列因果关系模型可用于识别关键的“入门产品”。例如,一条经常穿的牛仔裤与特定的帽子配对,或者是小说的第一部分通常会引领读者看完这部小说。
一旦我们拥有这些模型,我们就构建了一个模拟器和一个优化器,并在组合模型上运行它们,以找出哪些建议将实现我们的目标:推动销售并改善客户体验。
实际数据产品的最佳实践
很容易陷入这样的怪圈,即由于数据是抽象的,以电子表格的形式或存在于云中,因此数据产品只是抽象的算法。因此,我们最后向您展示基于客观的数据产品如何已经成为有形世界的一部分。这些例子最重要的一点是设计这些数据产品的工程师并不是从建立一个neato机器人开始,然后再寻找与之相关的东西。他们以一个目标开始,例如“我希望我的车能将我带到某个地方”,然后他们设计了一个数据产品来完成这项任务。工程师通常处于算法应用的前沿,因为他们长期以目标为导向来思考他们自己的模型。工业工程师是最先开始使用神经网络的一批人,他们将其应用于装配线和质量控制等最佳设计问题。布莱恩·里普利(Brian Ripley)关于模式识别的一本书为许多想法和技术提供了验证,这些20世纪70年代的想法和技术的之前已经被许多人遗忘。
在设计产品或模拟过程时,类似动力传动系统的过程以及模型集成,仿真和优化是系统工程师常用的几种技术。在工程中,通常需要将许多组件模型组合在一起,以便可以串联模拟和优化它们。这些公司在最终产品中构建每个组件和系统的模型方面拥有丰富的经验,无论是建造服务器集群还是战斗机。可能有一个详细的机械系统模型,一个是单独的热系统模型,另一个用于电气系统等。所有这些系统彼此相互作用。例如,电气系统中的电阻产生热量,这需要作为热扩散和冷却模型的输入。多余的热量可能导致机械部件弯曲,对于一些组件模型而言作为输入。
下面的屏幕截图取自Phoenix Integration设计的模型集成工具。虽然它来自完全不同的工程学科,但该图与我们推荐用于数据产品的动力传动系统方法非常相似。目标被明确的定义为建造飞机机翼。翼盒包括跨度,锥度比。数据是翼材料的物理特性;成本列在应用程序的另一个选项卡。有一个空气动力学和机械结构的建模器,它可以输入模拟器,以产生成本,重量,升力系数和诱导阻力等关键输出。这些结果可以输入优化器,以建立一个功能强大且具有成本效益的飞机机翼。
随着预测建模和优化对于各种各样的活动变得越来越重要,请留意工程师来破坏那些不会立即出现在数据业务中的行业。例如,“动力传动系统方法”这一短语的灵感已经出现在街道的标语中。我们现在可以让数据驱动我们,而不是被数据驱动。
假设我们想从旧金山到圣塔克拉拉去参加Strata2012会议。我们可以建立一个简单的距离/速度限制模型来预测到达时间,只需要一个标尺和一个路线图。如果我们想要一个更复杂的系统,我们可以建立另一个交通拥堵模型,另一个模型来预测天气状况及其对最安全的最大速度的影响。在构建这些模型时存在许多有趣的挑战,但是它们本身并没有将我们带到目的地。现在,使用某种类型的启发式搜索算法来预测沿着各种路线(模拟器)的驾驶时间,然后选择最短的一个(优化程序),例如要满足一些约束,如过桥费或最大化汽油里程。但为什么不想的广一点呢?不要再通过GPS的femme-bot语音告诉我们要走哪条路线以及在哪里转弯,取而代之的是思考建造一辆可以自行做出这些决定的汽车该需要些什么?为什么不将模拟和优化引擎与物理引擎捆绑在一起,所有的这些只需要放在汽车的黑匣子就可以?