动态网站的抓取思路和方式

来源：9-4 selenium集成到scrapy中

Lune丶

2017-06-14

http://openlaw.cn/search/judgement/type?causeId=270cfcd1df47453d9ff4b8d40901a587&selected=true

请问一下，这个网址下面的列表以及详情页怎么抓取呢？

我使用了老师讲的三种方式，都没有获取到网页元素，因为需要批量获取列表页所有信息，所以使用selenium会不会比较慢。

使用job伯乐和知乎的方式获取列表页URL的时候返回为空[]。

使用拉勾网的方式获取列表页URL的时候会有数据，但是无法使用itemLoader获取详情页的元素。

老师在讲动态网站的时候讲的内容不多，关于这个网站能不能给一个思路呢？

写回答

1回答

bobby

2017-06-15

亲这个页面我看过是静态页面不需要动态页面技术，但是这个网站采用了反爬虫策略第一次请求回来的页面实际上html不是你在浏览器里面看到的页面，你用f12去调试页面就知道实际上浏览器是完成了一次跳转才到真正的页面的

from selenium import webdriver
browser = webdriver.Firefox()

browser.get('http://openlaw.cn/search/judgement/type?causeId=270cfcd1df47453d9ff4b8d40901a587&selected=true')
print (browser.page_source)

这个是我在本地的调试在print 处打个断点实际上是能看到page_source的

主要是要弄清楚这个页面的跳转是如何完成的，我需要分析一下请求如何跳转的，但是可以确定的是这个网站不是动态网站技术难度不大

bobby

Lune丶

你加我的qq 442421039 我给看看

2017-06-16

共2条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

查看课程

相似问题

基于CrawlSpider，同一份代码爬取多个网站的数据，如果限制不爬取外链网站数据

回答 2

抓取这种招聘网站会有风险吗？

回答 1

老师比如我想动态获取美团美食的数据动态抓取到网页之后还怎么处理呢

回答 1

3000不同网址抓取数据

回答 1

老师，爬取备份需要账号登录的且特殊格式的网站失败，有什么思路吗？

回答 1

打开慕课网App查看更多内容