23张图，带你入门推荐系统 (4)

日期：2021-05-25 栏目：程序人生浏览：次

通过上面的介绍，大家对推荐系统的基本构成应该有了一个初步认识，但是真正运用到线上真实环境时，还会遇到很多算法和工程上的挑战，绝对不是几十行 Python 代码可以搞定的。

1、上面的示例使用了标准化的数据集，而线上环境的数据是非标准化的，因此涉及到海量数据的收集、清洗和加工，最终构造出模型可使用的数据集。

2、复杂且繁琐的特征工程，都说算法模型的上限由数据和特征决定。对于线上环境，需要从业务角度选择出可用的特征，然后对数据进行清洗、标准化、归一化、离散化，并通过实验效果进一步验证特征的有效性。

3、算法复杂度如何降低？比如上面介绍的Item-CF算法，时间和空间复杂度都是O(N×N)，而线上环境的数据都是千万甚至上亿级别的，如果不做算法优化，可能几天都跑不出数据，或者内存中根本放不下如此大的矩阵数据。

4、实时性如何满足？因为用户的兴趣随着他们最新的行为在实时变化的，如果模型只是基于历史数据进行推荐，可能结果不够精准。因此，如何满足实时性要求，以及对于新加入的物品或者用户该如何推荐，都是要解决的问题。

5、算法效果和性能的权衡。从算法角度追求多样性和准确性，从工程角度追求性能，这两者之间必须找到一个平衡点。

6、推荐系统的稳定性和效果追踪。需要有一套完善的数据监控和应用监控体系，同时有 ABTest 平台进行灰度实验，进行效果对比。

写在最后

这篇文章是推荐系统的入门篇，目的是让大家对推荐系统先有一个整体的认识，后续我会再连载出一些文章，详细地介绍面对具体业务和线上海量数据时，推荐系统应该如何设计？

如果需要文章中Item CF的Python源代码和数据集，可以从百度网盘下载：

链接: https://pan.baidu.com/s/18-RihJQhnYDxpevEVlP9MQ ，提取码: cax7

作者简介：985硕士，前亚马逊工程师，现58转转技术总监

欢迎扫描下方的二维码，关注我的个人公众号：IT人的职场进阶

23张图，带你入门推荐系统