知乎answer提取报错

来源:6-18 知乎spider爬虫逻辑的实现以及answer的提取 - 2

YangZee

2018-03-03

http://img.mukewang.com/szimg/5a9a4d1f000148a305220159.jpghttp://img.mukewang.com/szimg/5a9a4d2d0001b25b06340355.jpghttp://img.mukewang.com/szimg/5a9a4d5200016e4a06990148.jpg会不会跟我把selenium集成到scrapy里面有关啊http://img.mukewang.com/szimg/5a9a4dc60001c36b07720116.jpg怎么解决这个问题

写回答

1回答

YangZee

提问者

2018-03-04

我print了一下response.text 发现已经不是json文件了,是打开json文件的网页的源代码html5语言 应该怎么解决?

0
6
bobby
回复
YangZee
selenium 的原理是操作浏览器,然后获取页面源码, 你点击某个操作以后,实际上selenium后台发起了json请求,然后js解析这个json并放入到html中,这个时候你需要自己去解析一下html
2018-03-08
共6条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程