数据是整个电商系统乃至于我们整个互联网最值钱的部分不是随便说说的,但是如何发挥他们的价值,数据放在数据库是无法发挥他应有的价值的,算法在最近10年越来越受到大家的重视,机器学习、深度学习、人工智能、自动驾驶等领域也频频爆出天价offer的新闻,所以算法我觉得也有机会也是可以了解一下的。
不知道大家用搜索引擎或者购物网站使用过以图搜图功能没,这就是算法的图像搜索功能,我们在搜索栏输入对应关键词之后算法同学会通过自然语言处理,然后再落到推荐系统给出最好的搜索结果,以及大家看到的热搜,默认搜索的推荐都是通过算法算出针对你个人最优的推荐,你最最感兴趣的推荐。
就比如我最近在B站看了《龙王赘婿》相关的视频,我的默认搜索推荐就出现了《画网赘婿》的默认搜索推荐,这就是根据近期热点和你个人喜好算出来的,大家可以进去刷新试试。
国内人口基数这么大,那相对来说垃圾内容应该更多才对,但是大家几乎可以一直浏览到绿色健康的网络环境,这得益于风控,算法同学也会用风控去对涉黄,涉政等内容做一个甄别。
你要知道你的每一个行为在进入app开始就会被分析,最后给你打上一个个的标签,算法算出你最喜欢的内容投喂给你,你没发现抖音你越看内容越和你的胃口么?淘宝你越逛推荐的商品你越想买么?
这都得益于大数据和算法的结合,不断完善不同的训练模型,投喂给用户他最喜欢的内容,很多训练模型甚至以小时维度的更新频率在更新。
用户数据对内对外还有差别,因为很多平台是不会给你完整的数据的,但是算法同学会尽可能的捕捉用户的每一个潜在特性,然后去给你投喂最适合你的广告。
看到这里大家可能会担心自己的数据安全了,其实每个公司都会有自己最基本的职业操守,正常公司都是不会去出卖自己用户的任何数据的,但是市面上也存在销售用户数据的黑色产业。
生在这个大数据的年代是一件好事,技术是两面性也是我一直强调的,这样的技术会让你的所有信息透明,这个时候我们就要尽可能的注重保护我们自己的数据隐私安全,不要贪图小便宜去到处填写自己的真实信息,手机号,身份证号码等,你永远都不知道你数据的价值,以及他们可能把你的数据用在什么地方。
算法这里我提到过搜索引擎,我打算单独讲一下,因为在技术侧还算有可圈可点之处。
搜索引擎:传统关系型数据库和NoSQL非关系型数据都没办法解决一些问题,比如我们在百度,淘宝搜索东西的时候,往往都是几个关键字在一起一起搜索东西的,在数据库除非把几次的结果做交集,不然很难去实现。
那全文检索引擎就诞生了,解决了搜索的问题,你得思考怎么把数据库的东西实时同步到ES中去,那你可能会思考到logstash去定时跑脚本同步,又或者去接触伪装成一台MySQL从服务的Canal,他会去订阅MySQL主服务的binlog,然后自己解析了去操作Es中的数据。
这些都搞定了,那可视化的后台查询又怎么解决呢?Kibana,他他是一个可视化的平台,甚至对Es集群的健康管理都做了可视化,很多公司的日志查询系统都是用它做的。
学习路线以上就是整个系统所有的技术栈了,这个时候大家再看一下我开头的电商项目图大家是不是会觉得更有感觉了?是不是发现好像是那么回事,也大概知道了很多技术栈在一个系统里面的地位了?