selenium调用浏览器的问题

来源:9-4 selenium集成到scrapy中

慕粉1472870758

2017-06-11

webdriver.Chrome击下一页时,start_requests就又给中间件发送新的url,导致那一页的内容没有下载完浏览器就又跳转到新的url,怎么应对?

写回答

2回答

慕粉1472870758

提问者

2017-06-11

def process_request(self, request, spider):
    # 商品列表页数多,还没抓到最后一页数据,start_requests发送来的新url使浏览器跳转到下一种商品
    # 还不能简单的增加时间,因为下一页的url也是从这里通过
    time.sleep(40)
    spider.browser.get(request.url)
    time.sleep(5)
    return HtmlResponse(url=spider.browser.current_url, body=spider.browser.page_source, encoding="utf-8", request=request)


0
0

慕粉1472870758

提问者

2017-06-11

问题补充:start_requests发给中间的的url,都会在浏览器打开,但是前两个url,不会到parse中进行数据获取,第三个url才会到parse中。导致获取的数据是从第三个url开始的。(单个请求每个url都能获取数据),遇到这个问题三次了。

0
1
bobby
你加我的qq 442421039 我看一下问题
2017-06-12
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程