机器学习排序LTR入门(3)

日期：2020-06-13 栏目：程序人生浏览：次

非常接近！First Blood稍微高于Rambo一点儿获胜。原因是这样——Rambo是一个精确匹配，而First Blood是Rambo电影前传！因此我们不应该真的让模型如此可信，并没有那么多的例子达到那个水平。更有趣的是简介得分的系数比标题得分的系数大。所以至少在这个例子中我们的模型显示，简介中提到的关键字越多，最终的相关度往往越高。至此我们已经学习到一个不错的处理策略，用来解决用户眼里的相关度！

把这个模型加进来会更有意思，这很好理解，并且产生了很合理的结果；但是特征的直接线性组合通常会因为相关度应用而达不到预期。由于缺乏这样的理由，��如Flax的同行所言，直接加权boosting也达不到预期。

为什么？细节决定成败！

从前述例子中可以发现，一些非常相关的电影确实有很高的TF*IDF相关度得分，但是模型却倾向于概要字段与相关度更加密切。实际上何时标题匹配以及何时概要匹配还依赖于其他因素。

在很多问题中，相关度等级与标题和摘要属性的得分并不是一个简单的线性关系，而是与上下文有关。如果就想直接搜索一个标题，那么标题肯定会更加匹配；但是对于并不太确定想要搜索标题，还是类别，或者电影的演员，甚至其他属性的情形，就不太好办了。

换句话说，相关度问题看起来并非是一个纯粹的最优化问题：

机器学习排序LTR入门

实践中的相关度要更加复杂。并没有一个神奇的最优解，宁可说很多局部最优依赖于很多其他因子的！为什么呢？换句话说，相关度看起来如图所示：

机器学习排序LTR入门

可以想象这些图（吴恩达机器学习课程中的干货）用于展示“相关度错误” —— 离我们正在学习的分数还有多远。两个θ变量的映射表示标题和摘要的相关度得分。第一张图中有一个单一的最优值，该处的“相关度错误”最小 —— 一个理想的权重设置应用这两个查询。第二个更加实际一些：波浪起伏、上下文相关的局部最小。有时与一个非常高的标题权重值有关，或者是一个非常低的标题权重！

与上下文和细微差别密切相关！

本文到此为止。后续文章将会更多关注如何精确量化模型的适用程度。使用什么样的度量方式来评价一个模型的好坏？这将是很重要的一步，旨在检验其他方法在捕捉细微差别方面能否做得更好。

转载注明出处：https://www.heiqu.com/53e08f9bbcdc77c156734f46f0093ac8.html

机器学习排序LTR入门(3)

相关推荐