selenium调用浏览器的问题
来源:9-4 selenium集成到scrapy中
慕粉1472870758
2017-06-11
webdriver.Chrome击下一页时,start_requests就又给中间件发送新的url,导致那一页的内容没有下载完浏览器就又跳转到新的url,怎么应对?
写回答
2回答
-
慕粉1472870758
提问者
2017-06-11
def process_request(self, request, spider): # 商品列表页数多,还没抓到最后一页数据,start_requests发送来的新url使浏览器跳转到下一种商品 # 还不能简单的增加时间,因为下一页的url也是从这里通过 time.sleep(40) spider.browser.get(request.url) time.sleep(5) return HtmlResponse(url=spider.browser.current_url, body=spider.browser.page_source, encoding="utf-8", request=request)
00 -
慕粉1472870758
提问者
2017-06-11
问题补充:start_requests发给中间的的url,都会在浏览器打开,但是前两个url,不会到parse中进行数据获取,第三个url才会到parse中。导致获取的数据是从第三个url开始的。(单个请求每个url都能获取数据),遇到这个问题三次了。
012017-06-12
相似问题