我们在设计时是如何考虑布隆过滤器的参数配置的
来源:10-12 集成布隆过滤器实战(一)

Key_BoardFinger
2024-04-19
比如设置它的BitSet数组的初始化大小,误判率,哈希函数,哈希次数等。
我知道咱们会每天定时更新重构一次布隆,但如果当天数据量暴增,疯狂创建分享链接,有没有可能出现BitSet数组就存不下元素之类的问题呢?
写回答
1回答
-
RubinChu
2024-04-20
同学这个问题问得好,首先,如果数据过多,就会存在整个向量数组的值全部是1,那他的判断结果就没有参考价值了。
1、大小的确认需要预估当前数据的大小和你需要的误判率来综合考虑,一般数组越大、哈希次数越多误判率越低,这个需要反复试验去找到一个平衡的点
2、关于数据增长的需求,就需要统计每天的数据增长,每天的定时任务根据增长量的大小去动态调整布隆过滤器的大小哈
10
相似问题