Flink + 强化学习 搭建实时推荐系统 (3)

\(P(s'\vert s, a) \;\;\;\;\qquad\) 转移概率 (transition probability),从状态 \(s\) 采取动作 \(a\) 后转移到下一个状态 \(s'\) 的概率

\(\tau \qquad\qquad\qquad\) 有多种名称:轨迹 (trajectory),回合 (episode),试验 (trial)

\(R \;\;\;\;\;\;\qquad\qquad\) 总回报 (return),\(R(\tau)\) 表示轨迹 \(\tau\) 的总回报

\(\pi(a \vert s) \;\qquad\qquad\) 随机性策略 (stochastic policy)

\(\mu(s) \;\;\;\qquad\qquad\) 确定性策略 (deterministic policy)

\(\gamma \qquad\qquad\qquad\) 折扣因子 (discount factor),\(\gamma \in [0,1]\)



YouTube Top-K (REINFORCE)

这个方法主要参考 YouTube 2018 年发表的论文 Top-K Off-Policy Correction for a REINFORCE Recommender System 。论文作者在这个视频中宣称这个方法取得了近两年来的最大增长,说实话我是有点怀疑的。在论文最后的实验部分提到,这个强化学习模型只是作为众多召回模型之一,然后所有的召回物品再经过一个独立的排序模块后推荐给用户,文中也没说这个排序模块用的是什么模型,所以这里面的空间就比较大了。

论文中使用了 policy gradient 领域最古老的 REINFORCE 算法,并就其具体业务情形做了一些改动,这里我们先看 REINFORCE 的基本框架。

假定执行的是随机策略,智能体在环境中互动产生的一个轨迹为 \(\tau = (s_0,a_0,s_1,a_1,r_1,\cdots,s_{T-1},a_{T-1},s_T,r_T)\) 。在深度强化学习中一般使用神经网络来参数化策略 \(\pi\),一般会在环境中采样多个轨迹,那么该策略的期望总回报为:

\[J(\pi_\theta) = \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)] = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum\limits_{t=0}^{|\tau|} r(s_t, a_t)\right] \tag{1.1} \]

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyysyw.html