动态翻页爬虫策略?

来源:9-6 scrapy的暂停与重启

慕无忌7299967

2017-07-22

老师,想请问一下,爬去动态翻页的网页有什么办法?
我试过post提交表单,但是没有成功;
用selenium点击翻页,url不变,只能爬取到第一页的内容,希望老师能提供一个思路,谢谢老师

写回答

2回答

bobby

2017-07-24

你说的是那种下面有“点击加载更多”然后异步加载的那种吧, 那种点击之后你看一下网络请求会一个url请求, 你可以直接在selenium中点击 也可以直接用requests去模拟url请求

0
0

慕无忌7299967

提问者

2017-07-24

如果用seleuim点击加载的话,他返回的网页数据会发生改变对吗?

0
1
bobby
对 页面的hhtml会发生变化, 你需要重新解析新加载的数据, 你可以记录一下前一次解析的最后一条数据的id, 后面只从该id之后的数据开始解析就行了
2017-07-25
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程