关于分布式爬虫的管理问题。

来源:9-10 scrapy的数据收集

慕用6721716

2017-05-02

老师,你在scrapy-redis  和 scrapyd的部署下都没有演示如何做一个
master  salve 的演示
比如说 说主机master爬取了url 通过bloom fliter后
如何通过 redis 分配 到 从机 salve 然后 从机再进行作业,  scrapyd  您只演示了一台电脑的部署,
能不能演示如何通过master 分配 url 到 salve 进行作业……   
还有 redis mysql 数据库的 settings
用分布式要怎么设置呀……

写回答

2回答

bobby

2017-05-03

亲  scrapy-redis的分布式爬虫 非常简单, 不需要过多的设置,  先在settings中设置 REDIS_PARAMS
 ={

    'REDIS_URL': 'url',
'REDIS_HOST': 'host',
'REDIS_PORT': 'port',
'REDIS_ENCODING': 'encoding',

}

然后只需要在另一台服务器上直接开启scrapy-redis就行了,

然后填写好相关的配置就行了, 其实源码都已经了解了,另起一台服务器来说就更简单了, 我本地因为虚拟机一直没有搭建好 所以课程中没有讲到再用一台服务器启动实例

0
0

慕粉1724417796

2017-05-03

我之前也是这个意思,视频中很多都是讲源码或官方文档。有时候看的会一脸懵逼,希望能多补充一些实例。

我都是慢慢自己摸索,才明白一点点。课程本先是‘分布式’然后是‘搜索引擎’,但课程却对前面基础花太多时间,后面重要的关于‘分布式’和‘搜索引擎’没有花更多时间

0
1
bobby
谢谢提醒, 关于这方面如果遇到什么问题可以在提问区提问
2017-05-19
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程