谷歌机器学习规则要点简析:43条黄金法则 (12)

如果当前系统是 A,那么团队不太可能会改用 B。如果当前系统是 B,那么团队不太可能会改用 A。这似乎与理性行为背道而驰;但是,对更改指标的预测可能会成功也可能不会,因此这两种改变都蕴含着巨大的风险。每个指标都涵盖了团队所担心的一些风险。

此外,没有一个指标涵盖团队最关心的问题,即“五年后我的产品将何去何从”?

另一方面,个人更倾向于选择可以直接优化的目标。 大多数机器学习工具也都青睐这样的环境。在这样的环境下,快速创建新特征的工程师能稳定地进行一系列发布。一种称为“多目标学习”的机器学习已开始解决此问题。例如,您可以提出约束满足问题,对每个指标设定下限,并优化指标的一些线性组合。不过,即使如此,也并不是所有指标都可以轻松框定为机器学习目标:如果用户点击了文档或安装了应用,那是因为相应内容展示出来了。但要弄清楚用户为什么访问您的网站就难得多。如何预测整个网站未来的成功状况属于 AI 完备问题:与计算机视觉或自然语言处理一样难。

 40 条规则:保证集成学习简单化。

采用原始特征并直接对内容进行排名的统一模型是最易于进行调试和理解的模型。但是,集成学习模型(将其他模型的分数结合到一起的模型)可以实现更好的效果。为了简单起见,每个模型应该要么是仅接受其他模型的输入的集成学习模型,要么是接受多个特征的基本模型,但不能两者皆是。 如果在单独训练的模型之上还有其他模型,则组合它们会导致不良行为。

使用简单的模型进行集成学习(仅将“基本”模型的输出作为输入)。此外,您还需要将属性强加到这些集成学习模型上。例如,基本模型生成的分数的升高不应使集成学习模型的分数有所降低。另外,如果传入的模型在语义上可解释(例如,经过校准),则最理想,因为这样一来,即使基本模型发生改变,也不会扰乱集成学习模型。另外,强制要求:如果基本分类器的预测概率增大,不会使集成学习模型的预测概率降低。

 41 条规则:效果达到平稳后,寻找与现有信号有质的差别的新信息源并添加进来,而不是优化现有信号。

您添加了一些有关用户的受众特征信息,也添加了一些有关文档中字词的信息。您探索了模板,并调整了正则化。但在几个季度的发布中,关键指标的提升幅度从来没有超过 1%。现在该怎么办?

是时候开始为截然不同的特征(例如,用户在过去一天内、一周内或一年内访问的文档的历史记录,或者其他属性的数据)构建基础架构了。您可以使用维基数据条目或公司内部信息(例如,Google 的知识图谱)。利用深度学习。开始调整您对投资回报的预期,并付出相应的努力。与在任何工程项目中一样,您必须对添加新特征的好处与增加复杂性的成本进行一番权衡。

 42 条规则:不要期望多样性、个性化或相关性与热门程度之间的联系有您认为的那样密切。

一组内容中的多样性可以有多种含义,其中内容来源的多样性是最常见的一种。个性化意味着每个用户获得贴合其个人需求的结果。相关性意味着某个特定查询的结果更适合该查询,而非其他任何查询。因此,这三个属性均具有不同于常态的定义。

但常态往往很难被打败。

请注意,如果您的系统在测量点击次数、访问时间、观看次数、+1 次数、转发次数等数据,那么您测量的是内容的热门程度。团队有时会尝试学习具备多样性的个性化模型。为实现个性化,他们会添加支持系统进行个性化(代表用户兴趣的部分特征)或多样化(表明相应文档是否与其他返回的文档有任何相同特征的特征,例如作者或内容)的特征,然后发现这些特征的权重比预期低(或者有时是不同的信号)。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzfxsz.html