如果老师能详细讲解一下分布式爬虫的部署就好了

来源:10-9 集成bloomfilter到scrapy-redis中

HugoL

2019-01-20

小白的我对分布式有太多的疑点了,特别想知道怎么在多台主机上如何部署爬虫并进行管理。老师只是讲解了Scrapy-Redis的源码,没有深入去利用一个项目去讲解多台主机部署爬虫并抓取,稍微有一点点失望,现在毕设要求实现分布式爬取,后面分布式的思路不是很清晰。不过老师之前的内容讲得很不错,颇有收获,很是感谢

写回答

1回答

bobby

2019-01-22

分布式爬虫部署你只需要在多台服务器上启动就行了,因为这个爬虫是从redis中获取的url进行抓取,所以多台服务器上的redis连接配置到同一台服务器上的redis连接就行了,这样就完成了ur的统一调用,但是抓取逻辑是分布到各个服务器的

0
2
bobby
回复
HugoL
你可以看看这个项目 https://github.com/aciobanu/docker-scrapy
2019-01-27
共2条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程