关于分布式爬虫的管理问题。
来源:9-10 scrapy的数据收集
慕用6721716
2017-05-02
老师,你在scrapy-redis 和 scrapyd的部署下都没有演示如何做一个
master salve 的演示
比如说 说主机master爬取了url 通过bloom fliter后
如何通过 redis 分配 到 从机 salve 然后 从机再进行作业, scrapyd 您只演示了一台电脑的部署,
能不能演示如何通过master 分配 url 到 salve 进行作业……
还有 redis mysql 数据库的 settings
用分布式要怎么设置呀……
写回答
2回答
-
亲 scrapy-redis的分布式爬虫 非常简单, 不需要过多的设置, 先在settings中设置 REDIS_PARAMS
={'REDIS_URL': 'url',
'REDIS_HOST': 'host',
'REDIS_PORT': 'port',
'REDIS_ENCODING': 'encoding',}
然后只需要在另一台服务器上直接开启scrapy-redis就行了,
然后填写好相关的配置就行了, 其实源码都已经了解了,另起一台服务器来说就更简单了, 我本地因为虚拟机一直没有搭建好 所以课程中没有讲到再用一台服务器启动实例
00 -
慕粉1724417796
2017-05-03
我之前也是这个意思,视频中很多都是讲源码或官方文档。有时候看的会一脸懵逼,希望能多补充一些实例。
我都是慢慢自己摸索,才明白一点点。课程本先是‘分布式’然后是‘搜索引擎’,但课程却对前面基础花太多时间,后面重要的关于‘分布式’和‘搜索引擎’没有花更多时间
012017-05-19
相似问题