crawlspider 分布式是先爬网页再解析网页吗

来源:7-6 item loader方式解析职位

10codes15bugs

2019-10-14


http://img.mukewang.com/szimg/5da40549087cc62810000563.jpg
老师  我用分布式crawlSpider爬取一个电影网站  爬了一个多小时都还在爬url   它是把url全爬下来放在redis后才开始取出来解析吗?

写回答

2回答

10codes15bugs

提问者

2019-10-14

改了一下rule能爬了 但是最后log显示爬了9000多页 实际入库的才600多个数据 怎么回事呢
0
6
bobby
回复
10codes15bugs
如果是知乎的这种需要模拟登录 那么就需要重新start_requets逻辑,可以拷贝以前的逻辑。在以前的逻辑前面加上模拟登录的逻辑就行了啊
2019-10-22
共6条回复

10codes15bugs

提问者

2019-10-14

nl爬完全部url也不提取!!

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程