Redis 布隆过滤器实战
|
数据库里面中选中的用户放在redis的set类型中,设置不过期。 这样相当把redis当作数据库的索引,只要查询redis,就可以知道是否数据存在。 redis中不存在就可以直接返回结果。 如果存在就按照上面提到一般业务缓存流程处理。 聪明的你肯定会想到更多的问题:
问题1需要区分业务场景,结果数据少,我们是可以直接使用redis作为缓存,直接返回数据。 结果比较大就不太适合用redis存放了。比如ugc内容,一个评论里面可能存在上万字,业务字段多。 redis使用有很多技巧。bigkey 危害比较大,无论是扩容或缩容带来的内存申请释放, 还是查询命令使用不当导致大量数据返回,都会影响redis的稳定。这里就不细谈原因及危害了。 解决bigkey 方法很简单。我们可以使用hash函数来分桶,将数据分散到多个key中。 减少单个key的大小,同时不影响查询效率。 问题3是redis存储占用内存太大。因此我们需要减少内存使用。 重新思考一下引入redis的目的。 redis像一个集合,整个业务就是验证请求的参数是否在集合中。s中存在 2,4两个数字,我们需要查询 0,1,2 那些在集合s中。 lambda x:x in s构造一个匿名函数,判断入参x是否在集合s中。 过滤器filter依次对列表中的数字执行匿名函数。最终返回列表[2]。 redis中实现set用了两种结构:intset和hash table。 非数字或者大量数字时都会退化成hash table。 那么是否好的算法可以节省hash table的大小呢? 其实早在1970年由Burton Howard Bloom提出的布隆过滤器(英语:Bloom Filter)。 它实际上是一个很长的二进制向量和一系列随机映射函数。 布隆过滤器可以用于检索一个元素是否在一个集合中。 它的优点是空间效率和查询时间都远远超过一般的算法, 缺点是有一定的误识别率和删除困难。 BloomFilter原理
我们常见的将业务字段拼接之后md5,放在一个集合中。 md5生成一个固定长度的128bit的串。 如果我们用bitmap来表示,则需要 (编辑:揭阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


