关于去重问题中单节点承受的数据量有限

来源:18-2 分布式爬虫架构

钧一十一

2021-12-31

1千万个url,每个url20字节也就10MB左右,也没有建立TCP连接,内存也爆不了,MAP的平均复杂度也是O(1),就是往worker推数据的时候检查一下重复为啥会影响性能呢,希望老师解答一下

写回答

2回答

ccmouse

2022-01-04

我是指如果在实际使用中url的个数更多的情况下,内存装不下。如果要通过单独的服务或是分布式缓存的话,这里的确有影响的可能性。

0
0

钧一十一

提问者

2021-12-31

。。。

0
0

Google资深工程师深度讲解Go语言 由浅入深掌握Go语言

语法+分布式爬虫实战 为转型工程师量身打造

5995 学习 · 1909 问题

查看课程