对于左、右两张图,按照pointwise的思想,则认为这两条样本 i 和 j 都被点击,因此label都是1。但在右图包含更重要的信息 :用户只点了红框内的酒店,而没有点黄框内的酒店(右图黄框内的酒店和左图点击红框的酒店一致)。这说明样本 j 的 label应该比样本 i 的label大(样本 j 排名比样本 i 更靠前),很显然,pointwise并没有利用到这个信息。
对于搜索任务来说,系统接收到用户查询后,返回相关文档列表,所以问题的关键是确定文档之间的先后顺序关系。
单文档方法(PointWise Approach)完全从单个文档的分类得分角度计算,没有考虑文档之间的顺序关系。
文档对方法(PairWise Approach)则将重点转向了对文档顺序关系是否合理进行判断。之所以被称为文档对方法,是因为这种机器学习方法的训练过程和训练目标,是判断任意两个文档组成的文档对<Doc1,Doc2>是否满足顺序关系,即判断是否Doc1应该排在Doc2的前面。
根据转换后的训练实例,就可以利用机器学习方法进行分类函数的学习: 输入一个查询和文档对<Doc1,Doc2>,机器学习排序能够判断这种顺序关系是否成立,如果成立,那么在搜索结果中Doc1应该排在Doc2前面,否则Doc2应该排在Doc1前面。通过这种方式,就完成搜索结果的排序任务。
文档对方法(PairWise Approach)只考虑了两个文档对的相对先后顺序,却没有考虑文档出现在搜索列表中的位置。排在搜索结果前列的文档更为重要,如果前列文档出现判断错误,代价明显高于排在后面的文档。