Reddit如何使用Memcached来存储3TB的缓存数据(2)

第三大缓存用来存放渲染过的页面模板或页面片段。这个缓存相对安全,就算发生失效,也不会对系统造成太大影响。它的命中率只有大概50%左右,毕竟页面信息需要不断更新,所以渲染过的页面模板或片段也需要更新。再则,就算这个缓存失效,也不会给数据库负载带来多大影响,因为用来渲染页面的上下文内容已经在其它独立的缓存中加载过了。不过,因为缓存的key是基于上下文内容生成的,如果key发生变化,模板就需要重新缓存,这个需要消耗额外的CPU,也会使页面响应时间变长。

持久缓存(cache-perma)

Instances   6 r3.2xlarge  
Memcached Version   1.4.17  
Total RAM  

366 GB

 
Get Rate  

24k/s

 
Set Rate   4k/s  
Miss %   <1%  
Typical Object Size   96-120 bytes  

最后一个要细说的缓存,也是命中率最高的缓存——持久缓存,它的命中率超过了99%。这个缓存用来存放数据库的查询结果,还有用户评论和链接。为什么管这个缓存叫持久缓存,因为他们使用了读-改-写(read-modify-write)的模式。例如,在用户新增一个评论时,他们会同时更新缓存和后端的数据库(Cassandra),而不是简单地让缓存失效,这样就避免了需要再次从数据库加载数据。

非缓存对象池

之前提过,除了上述的几种缓存,Reddit还使用了速率限定和分布式锁。

对于一个并发量很大的网站来说,采取速率限定是很重要的一个措施,它可以避免用户无限制地消耗网站的资源。他们按照时间段把不同的key存放在不同的bucket里,每个key的TTL会随着每次调用逐步增加。通过检查这些TTL就可以确保它们不会超出限定的范围。因为一旦超过限定范围,该用户就无法再做任何操作。

另一方面,得益于Memcached的“add”原子操作命令,他们可以实现分布式锁。因为“add”命令每次会产生一个新的key,只要这个key原先不存在,那么就相当于获得了一把锁。锁用完了就会被移除,下一次调用“add”会生成新的锁。这个操作保证同时只有一个进程可以获得这个锁。不过这也是他们的痛点之一。因为这里存在单点故障问题,一旦需要做迁移或维护,会让整个网站不可用。Reddit团队计划在未来逐步减少甚至避免使用这种锁。

其它缓存池

除了上述几种缓存,Reddit还有一些小型的缓存池,比如对象关系的缓存、函数调用结果的缓存等等。因为这些缓存都不大,这里不一一赘述。

mcrouter

上面介绍了Reddit的缓存分区策略,以及各种缓存类型的特点。接下来,我们来看看Reddit是如何使用mcrouter来满足各种复杂的使用场景的。

mcrouter是由Facebook开源的Memcached连接池。为什么要用连接池?就像访问数据库要使用数据库连接池一样,使用连接池可以对连接进行重用和管理,避免了重复创建和销毁连接的开销。Reddit有很多应用服务器,每个服务器上面运行着多个工作进程,如果这些进程独自向缓存集群发起连接,那么连接数量会暴增。无法重用连接是一种资源浪费,同时会给缓存集群带来更大压力。通过在应用服务器上使用mcrouter,当前服务器上所有进程到缓存集群的连接可以形成一个连接池,并通过mcrouter这个唯一的出口连接到相应的缓存上。

除了作为连接池��mcrouter还能处理很多复杂的场景。mcrouter提供了多种路由类型,比如PrefixSelectorRoute,它通过匹配key的前缀来决定应该到哪个缓存上获取数据。这样就可以把特定功能的操作路由到特定的缓存上。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/aac9421983787136f9d67045460cb8a7.html