关于去重

来源:9-7 scrapy url去重原理

慕标1049315

2021-04-01

老师,url作为字符串添加到集合不就可以实现去重了吗?先转换成哈希值是内存性能上更优吗?

写回答

1回答

bobby

2021-04-02

课程中这点说的挺明确的啊,url可长可短,我见过有些url长度能达到500+的, 这样对内存占用较多,变成hash值可以让长度控制一定范围以内还不会重复

0
1
慕标1049315
非常感谢!
2021-04-07
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程