23.CTR预估---传统模型 (6)

23.CTR预估---传统模型

实验结果表明:GBDT-LR 比单独的 GBDT 模型,或者单独的 LR 模型都要好。 

2.传统的搜索广告根据用户query 来检索候选广告,检索依据是:广告是否显式的或隐式的匹配用户 query 。而 Facebook 中的广告不是和用户 query 关联,而是和广告主指定的人群定向(如:年龄、性别、城市等统计特性,体育、财经、游戏等兴趣特性)相关联。这使得每个用户能够匹配大量的候选广告。

  如果每次用户的广告请求都对这些候选广告做预测,则时间成本太高(广告检索有时间约束,时间太长则不可接受)。因此 Facebook 构建了一组分类器:

前期的分类器比较简单,处理候选广告多,计算成本低,同时预测准确率较差。

后期的分类器比较复杂,处理候选广告少,计算成本高,同时预测准确率较好。

每个分类器都将它们预测的低 pCTR 广告截断,从而降低下游分类器的处理数据量。

  通过这种分类器级联的方式层层过滤,最终每个用户只需要对少量广告的点击率进行预测。本论文关注的是最后一个分类器,它为最终候选广告集合生成点击率预估

3.评估指标

(1)论文提出归一化熵Normalized entropy:NE来评估模型。

假设样本集合有N个样本,样本集合的经验CTR为$\bar{p}$(它对于所有正类样本数量除以总样本数量)。

假设第$i$个样本预测为正类的概率为$p_i$,其真实标签为$y \in \{-1,+1\}$。

定义背景点击率background CTR为样本集合经验CTR,它的熵定义为背景熵:$H_{bg}=-plogp-(1-p)log(1-p)$。背景熵衡量了样本集合的类别不平衡程度,也间接的衡量了样本集合的预测难度。类别越不均衡预测难度越简单。因为只需要将所有样本预测为最大的类别即可取得非常高的准确率。

定义模型在样本集合熵的损失函数为:$\mathcal{L}=-\sum_{i=1}^{N}\left(\frac{1+y_{i}}{2} \log p_{i}+\frac{1-y_{i}}{2} \log \left(1-p_{i}\right)\right)$,每个样本的损失为交叉熵。

定义归一化熵NE为:模型在所有样本的平均损失函数除以背景熵。$NE=\frac{\mathcal{L} / N}{H_{bg}}$,分子需要除以$N$是为了剔除样本集合大小的影响。NE相对损失函数的优势在于:NE考虑了样本集预测的难易程度。在平均损失相同的情况下,样本集越不平衡则越容易预测,此时NE越低。

(2)AUC也是评估模型能力的一个很好的指标,但是AUC反应的模型对样本的排序能力:auc=0.8表示80%的情况下,模型将正样本预测为正类的概率大于模型将负样本预测为正类的概率。

     假设我们预估的pCTR $p_i$是有偏的(相比较经验CTR),此时我们需要乘以一个系数$\gamma$来校准calibration。

在校准前后,模型的AUC保持不变,因为对所有正负样本的pCTR乘以一个系数不改变它们的排序rank。

在校准前后,模型的NE得到改善。因为校准后的pCTR分布于样本的标签分布距离更近。

4.GBDT特征提取

有两种最简单的特征转换方式:

连续特征离散化:将连续特征的取值映射到一个个分散的分桶里,从而离散化。 这里桶的数量和边界难以确定,通常有两种方法: a.通过人工根据经验来设定分桶规则;b.利用后续的分类器来显式的学习这个非线性映射,从而学习出有意义的分桶数量和边界。

离散特征交叉:类似 FM 模型采用二路特征交叉(或者更高阶)来学习高阶非线性特征。 对于连续特征可以先离散化之后再执行特征交叉,如 kd 树就是典型的代表。 Boosted decisition tree:BDT 就是结合了上述两种方式的一个强大的特征提取器。

  对于 BDT,我们将每棵子树视为一个离散特征,其叶结点的编号为特征的取值并执行 one-hot 编码。 假设 BDT 有两棵子树,第一棵有 3 个叶结点,第二棵有2 个叶结点。则样本提取后有两个特征:第一个特征取值为 {1,2,3},第二个特征取值为 {1,2} 。 假设某个样本被划分到第一棵子树的叶结点 2,被划分到第二棵子树的叶结点 1,则它被转换后的特征为:[0,1,0,1,0]。其中:前三项对应于第一个离散特征的 one-hot,后两项对应于第二个离散特征的 one-hot 。

23.CTR预估---传统模型

  论文采用梯度提升树 Gradient Boosting Machine:GBM 来训练每棵子树,因此这种特征提取方式可以视为基于决策树的有监督特征编码:

它将一组实值向量 real-valued vector 转换为一组二元向量 binary-valued vector 。

每棵子树从根节点到叶节点的遍历表示某些特征转换规则。

在转换后的二元向量上拟合线性分类器本质上是学习每个规则的权重。

实验结果表明:采用 GBDT-LR 的模型相比于单独的 GBDT 提升了 3.4%。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzgfjz.html