布隆过滤器

来源:10-9 集成bloomfilter到scrapy-redis中

黎明的烬

2019-04-24

输入正文最近突发奇想,想测试下布隆过滤器,感觉URL量变大之后,存储真的好慢啊

然后还会报这个错误:

Traceback (most recent call last):

  File "D:/pyworkSpace/ENV/scrapy/Scripts/article_spider/article_spider/utils/bloomfilter.py", line 87, in <module>

    if not bf.is_exist(test_url):

  File "D:/pyworkSpace/ENV/scrapy/Scripts/article_spider/article_spider/utils/bloomfilter.py", line 47, in is_exist

    name = self.key + "_" + str(ord(value[0]) % self.blocknum)

IndexError: string index out of range


写回答

2回答

bobby

2019-04-26

这个异常和数据大小没有关系,为了解决这个问题你最好先看一下这个异常出现的地方,debug一下是哪个地方出问题了

0
13
bobby
回复
黎明的烬
那应该就是网络传输的时间了,对于这种那就比较麻烦,因为redis的网络毕竟是需要时间的
2019-05-15
共13条回复

黎明的烬

提问者

2019-05-01

布隆过滤器

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程