23.CTR预估---传统模型

传统CTR预估模型包括:LR、FM、GBDT等,其优点是:可解释性强、训练和部署方便、便于在线学习。

23.CTR预估---传统模型

 

(一)CTR预估

1.在cost-per-click:CPC广告中广告主按点击付费。为了最大化平台收入和用户体验,广告平台必须预测广告的CTR,称作predict CTR:pCTR。对每个用户的每次搜索query,有多个满足条件的广告同时参与竞争。只有pCTR x bid price最大的广告才能竞争获胜,从而最大化eCPM:eCPM=pCTR x bid

  基于最大似然准则可以通过广告的历史表现得统计来计算 pCTR 。假设广告曝光了 100次,其中发生点击 5 次,则 pCTR = 5%。其背后的假设是:忽略表现出周期性行为或者不一致行为的广告,随着广告的不断曝光每个广告都会收敛到一个潜在的真实点击率 CTRtrue

  这种计算 pCTR 的方式对于新广告或者刚刚投放的广告问题较大:

新广告没有历史投放信息,其曝光和点击的次数均为 0 。

刚刚投放的广告,曝光次数和点击次数都很低,因此这种方式计算的 pCTR 波动非常大。

  如:一个真实 CTR 为 5% 的广告必须曝光 1000次才有 85% 的信心认为 pCTR 与真实 CTR 的绝对误差在1% 以内。真实点击率越低,则要求的曝光次数越多。 为解决这个问题,论文 《Predicting Clicks: Estimating the Click-Through Rate for New Ads》 提出利用 LR 模型来预测新广告的CTR。

2.从经验上来看:广告在页面上的位置越靠后,用户浏览它的概率越低。因此广告被点击的概率取决于两个因素:广告被浏览的概率、广告浏览后被点击的概率。因此有:

$p(click|ad,pos)=p(click|ad,pos,seen) \times p(seen|ad,pos)$

假设:

  在广告被浏览(即:曝光)到的情况下,广告被点击的概率与其位置无关,仅与广告内容有关。

  广告被浏览的概率与广告内容无关,仅与广告位置有关。

则有:

p(click|ad,pos)=p(click|ad,seen)xp(seen|pos)

第一项p(click|ad,seen)就是我们关注和预测的CTR。

第二项与广告无关,是广告位置(即:广告位)的固有属性。

可以通过经验来估计:统计该广告位的总拉取次数impress(pos),以及总曝光次数see(pos),则:

$p(seen|pos)=\frac{seen(pos)}{impress(pos)}$,这也被称为广告位的曝光拉取比。

(二)算法 一、LR模型 

1.论文将CTR预估问题视作一个回归问题,采用逻辑回归LR模型来建模,因为LR模型的输出在【0,1】之间。$pCTR=\frac{1}{1=exp(-\sum_i w_i f_i)}$

其中$f_i$表示从广告中抽取的第$i$个特征(如广告标题的单词数量),$w_i$为该特征对应的权重。采用符号的原因是使得权重、特征和pCTR正相关:权重越大则pCTR越大。

2.评价标准

模型通过L-BFGS算法来训练;

损失函数:交叉熵 L=-[pCTR]xlog(CTR)+(1-pCTR)xlog(1-CTR)]

权重通过均值为0、方差为$\sigma$的高斯分布来随机初始化。其中$\sigma$为超参数,其取值集合为[0.01,0.03,0.1,0.3,1,3,10,30,100],并通过验证集来选取最佳的值。

评估指标:测试集上每个广告的pCTR和真实点击率的平均KL散度。KL散度衡量了pCTR和真实点击率之间的偏离程度。一个理想的模型,其KL散度为0,表示预估点击率和真实点击率完全匹配。$\overline{\mathbb{D}}_{K L}=\frac{1}{T} \sum_{i=1}^{T}\left(\operatorname{pCTR}\left(\operatorname{ad}_{i}\right) \times \log \frac{\operatorname{pCTR}\left(\operatorname{ad}_{i}\right)}{\operatorname{CTR}\left(\operatorname{ad}_{i}\right)}+\left(1-\operatorname{pCTR}\left(\operatorname{ad}_{i}\right)\right) \times \log \frac{1-\operatorname{pCTR}\left(\operatorname{ad}_{i}\right)}{1-\overline{\operatorname{CTR}}\left(\operatorname{ad}_{i}\right)}\right)$

3.模型不仅可以用于预测新广告的pCTR,还可以为客户提供优化广告的建议。可以根据模型特征及其重要性来给广告主提供创建广告的建议,如:广告标题太短建议增加长度。 

二、Degree-2 Polynomial Margin (Poly2)

1.LR模型只考虑特征之间的线性关系,而POLY2 模型考虑了特征之间的非线性关系。

  捕获非线性特征的一个常用方法是采用核技巧,如高斯核RBF,将原始特征映射到一个更高维空间。在这个高维空间模型是线性可分的,即:只需要考虑新特征之间的线性关系。但是核技巧存在计算量大、内存需求大的问题。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzgfjz.html