scrapy-redis去重和redis分布式配置问题

来源:10-9 集成bloomfilter到scrapy-redis中

白塔七元

2017-05-16

请教老师:

1、scrapy-redis是去重request,但是我想把爬到的url直接存到redis中也用bloomfilter,该如何实现呢?  

2、redis的分布式改如何设置呢?为什么我注释掉bind之后,外网的计算机仍然不能连接本机的redis呢?


写回答

1回答

bobby

2017-05-17

  1. 不要把url随便放入到redis中, request放进去才是根本, 因为有时候虽然一个是同一个url但是url中有些参数不一致 或者cookie不一致的时候 这个时候是不应该去重的, 所以最好沿用原来的逻辑, 如果要自己做也可以就是直接看课程中我讲过源码 你直接把生成指纹的代码改成直接做md5放进去就行了

  2. bind注释掉可能默认绑定到本地 你把bind地址改为0.0.0.0试试

0
2
bobby
回复
白塔七元
那是阿里云的服务器限制了,之前也有学员有这个问题, 阿里云服务器应该是限制了端口的, 只开放某些端口, 你可以百度一下如何设置阿里云服务器的对外开放端口
2017-05-17
共2条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程