在爬到最后一页时后Scrapy如何终止爬取的？

来源：6-11 【实战】豆瓣图书：新书速递数据解析、存储

Alicias

2023-03-24

图1

图2

老师，请问在爬到最后一页时，通过

next_url = response.xpath('//*[@id="content"]/div/div[1]/div[4]/span[4]/a/@href').get()

得到的next_url显然不满足if条件（因为最后一页没有下一页），从而进入else代码块，通过

next_url = response.xpath('//*[@id="content"]/div/div[1]/div[4]/span[3]/a/@href').get()

得到新的next_url，如图二对应的应该是一个没有内含<a>标签的<span>标签，即此时的next_url也为None，Scrapy是如何在这里就终止爬取的呢？

写回答

1回答

Martin__Wang

2023-03-28

通过对后一夜我们只是找“后一页”对应的标签存不存在

Python 分布式爬虫与 JS 逆向进阶实战

20+ 案例 & 可接单级项目，全面提升爬虫实战能力

99 学习 · 26 问题

相似问题

回答 1

回答 1

回答 1

回答 1

回答 1