Bayesian Personalized Ranking 算法解析及Python实现

1. Learning to Rank  1.1 什么是排序算法

 为什么google搜索 ”idiot“ 后,会出现特朗普的照片?

Bayesian Personalized Ranking 算法解析及Python实现

 

“我们已经爬取和存储了数十亿的网页拷贝在我们相应的索引位置。因此,你输入一个关键字,我们将关键词与网页进行匹配,并根据200多个因子对其进行排名,这些因子包括相关性、新鲜度、流行度、PageRank值、查询和文档匹配的单词个数、网页URL链接地址长度以及其他人对排序结果的满意度等。在此基础上,在任何给定的时间,我们尝试为该查询排序并找到最佳结果。”

                                                —— GoogleCEO: 桑达尔·皮查伊 

1.2 排序算法的发展 1.2.1 早期排序技术

最早主要是利用词频、逆文档频率和文档长度这几个因子来人工拟合排序公式因为考虑因素不多,由人工进行公式拟合是完全可行的,此时机器学习并不能派上很大用场,因为机器学习更适合采用很多特征来进行公式拟合。此外,对于有监督机器学习来说,首先需要大量的训练数据,在此基础上才可能自动学习排序模型,单靠人工标注大量的训练数据不太现实。

1.2.2 基于机器学习的排序技术

对于搜索引擎来说,尽管无法靠人工来标注大量训练数据,但是用户点击记录是可以当做机器学习方法训练数据的一个替代品,比如用户发出一个查询,搜索引擎返回搜索结果,用户会点击其中某些网页,可以假设用户点击的网页是和用户查询更加相关的页面。

1.3 Learning to RankLTR

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpfszx.html