用selenium配合scrapy方法请求动态下拉新闻页面的问题
来源:9-4 selenium集成到scrapy中
南森_
2020-06-23
我用你的selenium集成到scrapy方法,请求了一个不用登陆的新闻页面,是一个新闻的分类,是那种下拉获取的网页,https://mil.sohu.com/?spm=smpc.home.top-nav.2.1592793414412pnl7qIC ,这个是我爬取的网站,
我是这样做的
1:selenium打开这个网址,然后用你教的下来的方法,直接循环拉到底.
2:然后再解析整个新闻页面里面的每个新闻的url,
3:获取每个新闻里面的所谓文字,保存到txt文件里.
过程实现了,但是有个问题.
selenium打开新闻主页是我需要的,但是之后爬取每个新闻的详情页都会用浏览器打开那个新闻页面.
我希望后面请求的每个新闻的时候就不要用浏览器打开了
我在中间件中,设置了打开几秒就关闭那个浏览器.time.sleep 可能让程序阻塞了,
马上就会报错.
你有什么建议吗?
我希望后面请求的每个新闻的时候就不要用浏览器打开了
写回答
1回答
-
你是不是使用middlware拦截了所有的请求 都使用了selenium请求了 如果是这样 你在这个里面做个if判断 只有符合某种规范的url才使用selenium 其他的都不处理
032020-06-27
相似问题