老师,如果用分布式来爬取知乎,模拟登录这块有什么好的思路吗?

来源:10-4 scrapy-redis编写分布式爬虫代码

慕设计9544645

2018-06-08

写回答

1回答

bobby

2018-06-11

其实模拟登录还是比较简单的, 你可以用多个selenium分别模拟登录知乎获取多个cookie,然后将这些cookie放入到redis中,然后每次抓取知乎就随机虫redis中获取一个cookie然后去访问,这样你就可以讲爬虫分成两部分,第一个部分是用于源源不断的向redis中放入cookie的服务,另一个就是scrapy服务,这种模式在爬虫中用的很多,因为cookie会失效的,所以你需要一个不断的模拟登录服务去维护cookie池

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5829 学习 · 6293 问题

查看课程