第一件事情是确认是否需要引入缓存:缓存的核心是缓解压力,而非提高响应速度
引入缓存的原因无非两点:
- 缓解CPU压力而引入缓存(比如将运行结果存起来,要求实时计算的结果存起来,公用数据复用)
- 缓解IO压力引入缓存(将单点部件的读写访问变为可扩缩部件的访问)
缓存属性
- 吞吐量
- 命中率和淘汰规则
- 扩展功能
- 分布式缓存(缓存可分为进程内缓存和分布式缓存两种)
缓存淘汰规则
- FIFO
- LRU(Least Recent Used),淘汰最久未被使用的数据
通常可以通过LinkedList双向队列来实现,使用过的放开头,淘汰末尾。 - LFU(Least Frequently Used),淘汰最不经常使用的数据。给每个数据都加一个访问记录器,每访问一次就加1,需要淘汰时候淘汰访问数最少的数据。
TinyLFU:添加了滑动窗口的概念,一段时间后所有计数器值减半,热度衰退。
分布式缓存
相比于在进程内存中读写速度,一旦涉及网络访问,由网络传输,数据复制,序列化,反序列化等操作所导致的延迟要比内存访问高很多。
复制式分布式缓存
更新很少但是频繁读取的数据,可以将数据分布到不同线程的,这样读就不需要网络访问了。
当数据发生变化时,遵循复制协议,将变更同步到集群的每个节点中。
复制式随着节点的增加呈现性能的平方级别的下将,变更代价变得高昂。
集中式分布式缓存
读写都需要网络访问,不会随着集群节点的数量增加而产生额外的代价。
强一致性zookeeper,弱一致性Redis。
多级缓存
分布式缓存和进程内缓存各有所长,通常将两者搭配使用,可以将进程内缓存作为一级缓存,而分布式缓存作为二级缓存。没找到,回填数据。通过对接口的包装,实现对用户的透明。
缓存风险
缓存穿透
查询在数据库中不存在的数据,每次查询都会触及末端的数据库,这种现象就叫做缓存穿透。
缓存穿透可能是恶意攻击造成的。
有两种解决方案:
- 将查询为空的key也缓存,从而一段时间内一个空查询只会穿透一次。
- 在缓存之前设置一个布隆过滤器。
缓存击穿
热点数据失效,导致大量的请求击穿缓存到达数据库,导致数据库压力倍增,就叫做缓存击穿。
有两种解决方案:
- 加锁同步,以请求的key为锁,使得只有第一个请求可以流入真实的数据源,其他线程阻塞或者重试。
- 热点数据手动管理
缓存雪崩
缓存雪崩通常描述的是更广泛范围的缓存失效情况,而缓存击穿则更侧重于某个具体数据的失效引起的问题。
出现这种情况通常是因为冷启动,或者大量数据的过期时间设置相似导致的。
策略:
- 不要将大量数据的过期时间设置的相似。
- 热启动。
- 建立分布式集群,提高可用性。
缓存污染
缓存中的数据和数据源中的数据不一致(最终一致性)。