如果不使用scrapy-redis架构,在不基于爬虫框架的前提下,使用python自己实现一个分布式爬虫系统有哪些方案?

来源:10-4 scrapy-redis编写分布式爬虫代码

dengwenjieyear

2017-05-01

问题补充(选填):请详细描述你的问题,贴出相关代码或截图,并告知你的操作步骤

写回答

1回答

bobby

2017-05-02

当然分布式一定要自己定义消息格式, 如果你不用redis的话 你就需要自己去走socket定义消息类型以及消息格式, 这些都会增加你的工作量以及你代码出错的概率, 如果使用了redis, rabbitmq,kafka等中间件那就和scrapy-redis差不多了, scrapy-redis只是将scrapy分布式化, 所以重点应该在如果不用scrapy应该如何做, 如果不用scrapy最简答的方式就是使用requests+gevent+redis来实现自己的分布式爬虫, 但是爬虫中需要解决的问题你一样都不能少, 这些问题几乎在scrapy中都已经解决了, 所以如果自己去做你会发现自己到最后会越来越接近一个scrapy

1
1
dengwenjieyear
谢谢老师的回答~
2017-05-18
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程