对于推荐系统的测评是衡量一个推荐系统的好坏的重要依据,但是对于目前商用的推荐系统进行测评并不是一件很容易的事情。总体来说,推荐系统的测评可以分为三个类别:离线测评、在线测评以及集中的用户研究。离线测评一般是在流行的基准数据集上对推荐系统进行测评,多见于学术研究领域。在线测评是指将推荐系统上线到实际的应用场景,根据真实用户的反馈对系统进行评价,通常这样的测评方式用于对商用推荐系统的测评。不过由于真实场景数据量大,涉及用户多,容易使用户产生不好的体验,在线测评成本比较高。集中的用户研究是当在线测评不可行或者太冒险时采用的一种测评方法,该测评要求一小群用户执行随着系统变化的不同的任务,从而完成对真实场景的模拟。
一般推荐系统的评测指标包括通常的信息检索指标、精准度、覆盖率、冷启动、信心值、可信度、新颖性、风险度、惊喜度等等。不同的推荐系统对不同的特性有自己的偏好,因此对于各评价指标的重视程度也不太相同。
1.6 推荐系统与人机交互有效的推荐系统需要得到用户的信任。通常信任来自于两个方面:对推荐系统其它用户的信任以及对推荐系统本身的信任。对推荐系统其它用户的信任有利于营造一个良好的社区环境,例如对于小红书中对于知名博主的信任。对推荐系统本身的信任需要推荐系统提供高质量可解释的推荐结果。 通常我们也可以通过提高用户对推荐系统其它用户的信任来提升用户对于推荐系统本身的信任。
推荐系统的解释在推荐系统中扮演着重要的角色,推荐系统可以通过解释实现以下七大功能:透明度、可反馈性、信任、有效性、说服力、高效性、满意度。
另外一种交互模式是会话系统,会话系统主要是解决了传统推荐系统一次性收集所有输入数据,而且只返回一次结果这样的模式带来的问题。基于会话的推荐系统,允许用户和推荐系统进行多次交互,用户可以对推荐系统提供的推荐进行修改和反馈,使得推荐系统能够更好地对用户偏好进行建模,从而返回更高质量的推荐结果。