推荐系统指标评测——覆盖率与基尼系数的算法与应用

评测指标是衡量推荐系统优劣的数据支持,目前应用广泛的有:点击率、转化率、精准率、召回率、F1值、覆盖率、多样性等等。不同的指标衡量的标准和目的是不一样的...今天就来介绍一下覆盖率和多样性是如何计算和应用的。

覆盖率

如何评价推荐系统的优劣,可以通过推荐的内容覆盖率来衡量。当然它并不是唯一的准则....覆盖率顾名思义就是推荐商品占整个推荐池的比例,它描述了一个推荐系统对长尾商品的挖掘能力(推荐池即你想推荐的商品池子,由于大部分电商都有一些脏数据或者自己定义了推荐数据的来源,因此才会出现自己的推荐池。)。

然后我们应用了一些算法,得到了推荐结果。那么试想一下,你的推荐系统作用是什么?

让热销更热销?让冷门更冷门?

所有商品出现的几率都一样...

上面两种场景,第二种或许才是大家期望的吧。如果推荐系统的覆盖率是100%,就意味着任何的商品内容都有可能出现在用户面前;而如果覆盖率只有10%,那么就意味着只能推荐十分之一的商品给用户,推荐的内容就太狭窄了。

然而覆盖率只能说明商品的种类问题,不能说明每种商品的出场频率。因此就需要额外的指标来说明了——基尼系数。

基尼系数

基尼系数描述的是物品流行度的分布趋势,流行度按照《推荐系统实践》作者项亮的解释,就是人与物品发生交互的连接数,我这边就把它定义为点击数了。

按照基尼系数的定义,有这样一个分布图:

基尼系数的定义就是A的面积除以半个等腰垂直三角形的面积。即
\[ \frac { A的面积 }{ (A的面积+B的面积)=1/2 } =\frac { 1/2-B的面积 }{ 1/2 } \]
如果还记得微积分的概念,就应该能理解。其中B的面积可以近似的看成是每个小格子的面积。每个小格子都是一个梯形,梯形的面积公式,大家应该都有印象吧!
\[ (上底+下底)*高*1/2 \]
然后下面就有一大堆的公式推导:
\[ B=\sum { \left[ \frac { 1 }{ 2 } \times \frac { 1 }{ n } \times ({ w }_{ i-1 }+{ w }_{ i }) \right] } \]
\[ =\frac { 1 }{ 2 } \frac { 1 }{ n } \left( { w }_{ 0 }+{ w }_{ 1 } \right) +\frac { 1 }{ 2 } \frac { 1 }{ n } \left( { w }_{ 1 }+{ w }_{ 2 } \right) +...+\frac { 1 }{ 2 } \frac { 1 }{ n } \left( { w }_{ n-1 }+{ w }_{ n } \right) \]
\[ =\frac { 1 }{ 2 } \frac { 1 }{ n } \left( { 0+2w }_{ 1 }+2{ w }_{ 1 }+...+2{ w }_{ n-1 }+1 \right) \]
\[ =\frac { 1 }{ n } \sum _{ i=1 }^{ n-1 }{ { w }_{ i }+\frac { 1 }{ 2 } \frac { 1 }{ n } } \]
带入到基尼系数的公式里面,就是:
\[ \frac { \frac { 1 }{ 2 } -\frac { 1 }{ n } \sum _{ i=1 }^{ n-1 }{ { w }_{ i }-\frac { 1 }{ 2 } \frac { 1 }{ n } } }{ \frac { 1 }{ 2 } } \]
\[ G=1-\frac { 1 }{ n } \left( 2\sum _{ i=1 }^{ n-1 }{ { w }_{ i } } +1 \right) \]
上面只是公式的推导,有需要的直接使用最后一个公式就行。不过关键是\({ w }_{ i }\)的数据是怎么计算的。

首先,有点击日志的朋友应该能获取到用户对物品的点击数据。那么就可以统计(物品,被点击次数),然后就能计算出,每种点击次数有多少个。如:

点击次数 个数
1   30w  
2   20w  
...   ...  
400   2  
520   1  

然后分别格式化点击次数和个数,我这边有个思路就是给每一列增加一个行号:
点击次数 | 个数 | 行号
---|--- | ---
1 | 30w | 101
2 | 20w | 100
...| ... | ...
400| 2 | 2
520| 1 | 1
然后对行号除以10,给他分成十组:

点击次数 个数 行号
1   30w   10  
2   20w   10  
...   ...   ...  
400   2   1  
520   1   1  

再累加个数,就把数据平均的分到了十个桶中,类似bucket统计。
Y轴则直接除以最大值即可,这样把X轴和Y轴都归一化到0-1之间即可,然后应用上面的公式就能计算出对应的基尼系数。

参考

推介一个简便易用的基尼系数计算公式:

python基尼系数的计算公式:

《推荐系统实践》

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyjwfx.html