关于分布式

来源:11-11 如何选择redis的数据结构来保存cookie

慕用2063631

2020-07-20

老师,有几个疑问
1.分布式爬虫 items 和pipelines 存入到数据库  和scrapy得时候是一样的代码内容吗?
2.redis这个概念很模糊,用了这个 是不用mysql了吗,还是二个一起用的呢
3.老师可否可以有专门一小节的视频  是 用分布式爬虫,从开始到最后的存储 全部的内容呢,或者老师对这部分,补充学习 有好的知识源吗(课程或者视频或者文章)  这里可能比较敏感,有的话可以qq 845299438 发我下,已加过老师QQ

写回答

1回答

bobby

2020-07-22

  1. items和pipeline的保存逻辑可以和scrapy一样,先保存到哪里就保存到哪里

  2. redis的目的不是为了解决你爬取下来的数据应该保存在哪里,而是为了让多个爬虫的url调度变成分布式的,至于数据存储还是自己在pipeline中写

  3. 这里的开始就是 你随便在多个机器上启动多个爬虫,这些爬虫去一个redis中心协调url的抓取,数据的保存你在每个爬虫的pipeline中自己去保存到同一个mysql就行了啊

0
1
慕用2063631
好的,老师,我在摸索下
2020-07-22
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程