在爬到最后一页时后Scrapy如何终止爬取的?

来源:6-11 【实战】豆瓣图书:新书速递数据解析、存储

Alicias

2023-03-24

http://img.mukewang.com/szimg/641c820b0965caa500000000.jpg图1

http://img.mukewang.com/szimg/641c820c097ce19f16220868.jpg图2


老师,请问在爬到最后一页时,通过

next_url = response.xpath('//*[@id="content"]/div/div[1]/div[4]/span[4]/a/@href').get()

得到的next_url显然不满足if条件(因为最后一页没有下一页),从而进入else代码块,通过

next_url = response.xpath('//*[@id="content"]/div/div[1]/div[4]/span[3]/a/@href').get()

得到新的next_url,如图二对应的应该是一个没有内含<a>标签的<span>标签,即此时的next_url也为None,Scrapy是如何在这里就终止爬取的呢?

写回答

1回答

Martin__Wang

2023-03-28

通过对后一夜我们只是找“后一页”对应的标签存不存在

0
0

Python 分布式爬虫与 JS 逆向进阶实战

20+ 案例 & 可接单级项目,全面提升爬虫实战能力

99 学习 · 26 问题

查看课程