关于去重问题中单节点承受的数据量有限
来源:18-2 分布式爬虫架构

钧一十一
2021-12-31
1千万个url,每个url20字节也就10MB左右,也没有建立TCP连接,内存也爆不了,MAP的平均复杂度也是O(1),就是往worker推数据的时候检查一下重复为啥会影响性能呢,希望老师解答一下
写回答
2回答
-
ccmouse
2022-01-04
我是指如果在实际使用中url的个数更多的情况下,内存装不下。如果要通过单独的服务或是分布式缓存的话,这里的确有影响的可能性。
00 -
钧一十一
提问者
2021-12-31
。。。
00
相似问题