关于分布式爬虫的管理问题。

首页课程实战体系课手记专栏慕课教程

关于分布式爬虫的管理问题。

来源：9-10 scrapy的数据收集

慕用6721716

2017-05-02

老师，你在scrapy-redis 和 scrapyd的部署下都没有演示如何做一个
master salve 的演示
比如说说主机master爬取了url 通过bloom fliter后
如何通过 redis 分配到从机 salve 然后从机再进行作业， scrapyd 您只演示了一台电脑的部署，
能不能演示如何通过master 分配 url 到 salve 进行作业……
还有 redis mysql 数据库的 settings
用分布式要怎么设置呀……

写回答

2回答

bobby

bobby

2017-05-03

已采纳

亲 scrapy-redis的分布式爬虫非常简单，不需要过多的设置，先在settings中设置 REDIS_PARAMS
={

'REDIS_URL': 'url',
'REDIS_HOST': 'host',
'REDIS_PORT': 'port',
'REDIS_ENCODING': 'encoding',

}

然后只需要在另一台服务器上直接开启scrapy-redis就行了，

然后填写好相关的配置就行了，其实源码都已经了解了，另起一台服务器来说就更简单了，我本地因为虚拟机一直没有搭建好所以课程中没有讲到再用一台服务器启动实例

0

0

慕粉1724417796

慕粉1724417796

2017-05-03

我之前也是这个意思，视频中很多都是讲源码或官方文档。有时候看的会一脸懵逼，希望能多补充一些实例。

我都是慢慢自己摸索，才明白一点点。课程本先是‘分布式’然后是‘搜索引擎’，但课程却对前面基础花太多时间，后面重要的关于‘分布式’和‘搜索引擎’没有花更多时间

0

1

bobby

谢谢提醒，关于这方面如果遇到什么问题可以在提问区提问

2017-05-19

共1条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5828 学习 · 6293 问题

相似问题

两个或两个以上的网站爬取算是分布式爬虫吗？我这样写可以启动无数个爬虫程序吧？为啥启动完第一个就直接结束了呢？

回答 1

请问源代码有实现scrapy-redis对招聘网站进行分布式爬虫吗

回答 1

请教老师一个问题

回答 1

关于分布式爬虫

回答 1

老师我想问问，关于分布式爬虫的问题

回答 1

打开慕课网App查看更多内容