如果不使用scrapy-redis架构,在不基于爬虫框架的前提下,使用python自己实现一个分布式爬虫系统有哪些方案?
来源:10-4 scrapy-redis编写分布式爬虫代码
dengwenjieyear
2017-05-01
问题补充(选填):请详细描述你的问题,贴出相关代码或截图,并告知你的操作步骤
写回答
1回答
-
bobby
2017-05-02
当然分布式一定要自己定义消息格式, 如果你不用redis的话 你就需要自己去走socket定义消息类型以及消息格式, 这些都会增加你的工作量以及你代码出错的概率, 如果使用了redis, rabbitmq,kafka等中间件那就和scrapy-redis差不多了, scrapy-redis只是将scrapy分布式化, 所以重点应该在如果不用scrapy应该如何做, 如果不用scrapy最简答的方式就是使用requests+gevent+redis来实现自己的分布式爬虫, 但是爬虫中需要解决的问题你一样都不能少, 这些问题几乎在scrapy中都已经解决了, 所以如果自己去做你会发现自己到最后会越来越接近一个scrapy
112017-05-18
相似问题