用selenium配合scrapy方法请求动态下拉新闻页面的问题

来源:9-4 selenium集成到scrapy中

南森_

2020-06-23

我用你的selenium集成到scrapy方法,请求了一个不用登陆的新闻页面,是一个新闻的分类,是那种下拉获取的网页,https://mil.sohu.com/?spm=smpc.home.top-nav.2.1592793414412pnl7qIC ,这个是我爬取的网站,
我是这样做的
1:selenium打开这个网址,然后用你教的下来的方法,直接循环拉到底.
2:然后再解析整个新闻页面里面的每个新闻的url,
3:获取每个新闻里面的所谓文字,保存到txt文件里.

过程实现了,但是有个问题.
selenium打开新闻主页是我需要的,但是之后爬取每个新闻的详情页都会用浏览器打开那个新闻页面.

我希望后面请求的每个新闻的时候就不要用浏览器打开了
我在中间件中,设置了打开几秒就关闭那个浏览器.time.sleep 可能让程序阻塞了,
马上就会报错.
你有什么建议吗?
我希望后面请求的每个新闻的时候就不要用浏览器打开了

写回答

1回答

bobby

2020-06-23

你是不是使用middlware拦截了所有的请求 都使用了selenium请求了 如果是这样 你在这个里面做个if判断 只有符合某种规范的url才使用selenium 其他的都不处理

0
3
bobby
回复
南森_
你使用selenium加入了ip代理不行?
2020-06-27
共3条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程