动态翻页爬虫策略？

来源：9-6 scrapy的暂停与重启

慕无忌7299967

2017-07-22

老师，想请问一下，爬去动态翻页的网页有什么办法？
我试过post提交表单，但是没有成功；
用selenium点击翻页，url不变，只能爬取到第一页的内容，希望老师能提供一个思路，谢谢老师

写回答

2回答

bobby

2017-07-24

已采纳

你说的是那种下面有“点击加载更多”然后异步加载的那种吧，那种点击之后你看一下网络请求会一个url请求，你可以直接在selenium中点击也可以直接用requests去模拟url请求

慕无忌7299967

提问者

2017-07-24

如果用seleuim点击加载的话，他返回的网页数据会发生改变对吗？

bobby

对页面的hhtml会发生变化，你需要重新解析新加载的数据，你可以记录一下前一次解析的最后一条数据的id，后面只从该id之后的数据开始解析就行了

2017-07-25

共1条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

相似问题

回答 1

回答 1

回答 1

回答 1

回答 1