拉勾网登录问题
来源:7-4 Rule和LinkExtractor使用
不务正业的码农
2018-05-25
老师你好,爬拉勾网遇到了重定向到登录页面的问题,我模仿知乎模拟登录写了一段模拟登录代码如下:
def start_requests(self):
browser = webdriver.Chrome(executable_path="D:/WebDriver/chromedriver.exe")
browser.get("https://passport.lagou.com/login/login.html")
browser.find_element_by_css_selector("div[data-propertyname='username'] input").send_keys(
"xxx")
browser.find_element_by_css_selector("div[data-propertyname='password'] input").send_keys(
"xxx")
browser.find_element_by_css_selector(
"div[data-propertyname='submit'] input").click()
time.sleep(10)
cookies = browser.get_cookies()
print(cookies)
cookie_dict = {}
for cookie in cookies:
# write into file
f = open('D:/Python_Projects/Article_Spider/Article_Spider/cookies/lagou' + cookie['name'] + '.lagou', 'wb')
pickle.dump(cookie, f)
f.close()
cookie_dict[cookie['name']] = cookie['value']
browser.close()
return [scrapy.Request(url=self.start_urls[0], dont_filter=True, cookies=cookie_dict, headers=self.headers)]成功获取cookies之后又去爬拉勾网首页。继续收到重定向到登录页面,截图如下

cookies应该是已经成功获得了的:

请问老师这里应该怎么处理啊, 以及老师方便留一下QQ吗
写回答
1回答
-
这个重定向 是通过ip限制的 即使你已经登录了也不行 这种方法非常暴力 你试试ip代理 还有一定要限制爬取速度
042018-05-28
相似问题