谷歌机器学习规则要点简析:43条黄金法则 (5)

所有这些都很重要,但也极难衡量。请改为使用代理指标:如果用户感到满意,他们会在网站上停留更长时间。如果用户感到满意,他们明天会再次访问网站。就满意度和公司运行状况而言,需要进行人为判断,以便将任意机器学习目标与您销售的产品的性质和业务计划关联起来。

 14 条规则:从可解释的模型着手可更轻松地进行调试。

线性回归、逻辑回归和泊松回归均由概率模型直接推动。每个预测都可看作是一个概率或预期值。这样一来,相较于使用目标(0-1 损失、各种合页损失函数等)以尝试直接优化分类准确度或对效果进行排名的模型,这种模型更易于进行调试。例如,如果在训练中得出的概率与采用并排分析方式或通过检查生产系统的方式预测的概率之间存在偏差,则表明存在问题。

例如,在线性回归、逻辑回归或泊松回归中,有一部分平均预测期望值等于平均标签值(一阶矩校准,或只是校准)的数据。假设您没有正则化且算法已收敛,那么理论上即是如此,实际上也是差不多这种情形。如果您有一个特征,对于每个样本来说,其值要么是 0,要么是 1,则会校准 3 个特征值为 1 的样本集。此外,如果您有一个特征,对于每个样本来说,其值均为1,则会校准所有样本集。

借助简单的模型,您可以更轻松地处理反馈环(请参阅第 36 条规则)。通常情况下,我们会根据这些概率预测来做出决策;例如,以期望值(点击概率/下载概率等)为标准,按降序对帖子进行排名。 但是,请注意,当选择要使用的模型时,您的决定比模型给出的数据概率更为重要(请参阅第 27 条规则)。

 15 条规则:在策略层中区分垃圾内容过滤和质量排名。

质量排名是一门艺术,但垃圾内容过滤就像一场战争。对于使用您系统的用户来说,您使用哪些信号来确定高质量帖子将变得显而易见,而且这些用户会调整自己的帖子,使其具有高质量帖子的属性。因此,您的质量排名应侧重于对诚实发布的内容进行排名。您不应该因为质量排名学习器将垃圾内容排在前列而对其应用折扣。同样,“少儿不宜”的内容也不应该在质量排名中进行处理。 垃圾内容过滤则另当别论。您必须明白,需要生成的特征会不断变化。通常情况下,您会在系统中设置一些明显的规则(如果一个帖子收到三次以上的垃圾内容举报,请勿检索该帖子等等)。所有学习模型都必须至少每天更新。内容创作者的声誉会发挥很大作用。

在某个层级,必须将这两个系统的输出整合在一起。请注意,与过滤电子邮件中的垃圾邮件相比,在过滤搜索结果中的垃圾内容时,可能应该更加主动。这种说法的前提是您没有正则化且算法已收敛。一般来说大致是这样。此外,从质量分类器的训练数据中移除垃圾内容是一种标准做法。

 

机器学习第二阶段:特征工程

在机器学习系统生命周期的第一阶段,重要的问题涉及以下三个方面:将训练数据导入学习系统、对任何感兴趣的指标进行测量,以及构建应用基础架构。当您构建了一个端到端的可稳定运行的系统,并且制定了系统测试和单元测试后,就可以进入第二阶段了。

第二阶段的很多目标很容易实现,且有很多明显的特征可导入系统。因此,机器学习的第二阶段涉及导入尽可能多的特征,并以直观的方式将它们组合起来。在这一阶段,所有的指标应该仍然呈上升趋势,您将会多次发布系统,并且非常适合安排多名工程师,以便整合创建真正出色的学习系统所需的所有数据。

 16 条规则:制定发布和迭代模型计划。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzfxsz.html