动态网站的抓取思路和方式

来源:9-4 selenium集成到scrapy中

Lune丶

2017-06-14

http://openlaw.cn/search/judgement/type?causeId=270cfcd1df47453d9ff4b8d40901a587&selected=true

请问一下,这个网址下面的列表以及详情页怎么抓取呢?

我使用了老师讲的三种方式,都没有获取到网页元素,因为需要批量获取列表页所有信息,所以使用selenium会不会比较慢。

使用job伯乐和知乎的方式获取列表页URL的时候返回为空[]。

使用拉勾网的方式获取列表页URL的时候会有数据,但是无法使用itemLoader获取详情页的元素。

老师在讲动态网站的时候讲的内容不多,关于这个网站能不能给一个思路呢?

写回答

1回答

bobby

2017-06-15

亲 这个页面我看过是静态页面 不需要动态页面技术, 但是这个网站采用了反爬虫策略 第一次请求回来的页面实际上html不是你在浏览器里面看到的页面, 你用f12去调试页面就知道实际上浏览器是完成了一次跳转才到真正的页面的


from selenium import webdriver
browser = webdriver.Firefox()

browser.get('http://openlaw.cn/search/judgement/type?causeId=270cfcd1df47453d9ff4b8d40901a587&selected=true')
print (browser.page_source)

这个是我在本地的调试 在print 处打个断点实际上是能看到page_source的

主要是要弄清楚这个页面的跳转是如何完成的, 我需要分析一下请求如何跳转的, 但是可以确定的是这个网站不是动态网站技术 难度不大

0
2
bobby
回复
Lune丶
你加我的qq 442421039 我给看看
2017-06-16
共2条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程