拉勾网登录问题

来源:7-4 Rule和LinkExtractor使用

不务正业的码农

2018-05-25

老师你好,爬拉勾网遇到了重定向到登录页面的问题,我模仿知乎模拟登录写了一段模拟登录代码如下:

def start_requests(self):
    browser = webdriver.Chrome(executable_path="D:/WebDriver/chromedriver.exe")

    browser.get("https://passport.lagou.com/login/login.html")
    browser.find_element_by_css_selector("div[data-propertyname='username'] input").send_keys(
        "xxx")
    browser.find_element_by_css_selector("div[data-propertyname='password'] input").send_keys(
        "xxx")
    browser.find_element_by_css_selector(
        "div[data-propertyname='submit'] input").click()
    time.sleep(10)
    cookies = browser.get_cookies()
    print(cookies)
    cookie_dict = {}
    for cookie in cookies:
        # write into file
        f = open('D:/Python_Projects/Article_Spider/Article_Spider/cookies/lagou' + cookie['name'] + '.lagou', 'wb')
        pickle.dump(cookie, f)
        f.close()
        cookie_dict[cookie['name']] = cookie['value']
    browser.close()
    return [scrapy.Request(url=self.start_urls[0], dont_filter=True, cookies=cookie_dict, headers=self.headers)]

成功获取cookies之后又去爬拉勾网首页。继续收到重定向到登录页面,截图如下

http://img.mukewang.com/szimg/5b07279e0001e11b18880096.jpg

cookies应该是已经成功获得了的:

http://img.mukewang.com/szimg/5b0727da0001f6e504600527.jpg

请问老师这里应该怎么处理啊, 以及老师方便留一下QQ吗

写回答

1回答

bobby

2018-05-25

这个重定向 是通过ip限制的 即使你已经登录了也不行 这种方法非常暴力 你试试ip代理 还有一定要限制爬取速度

0
4
bobby
回复
不务正业的码农
你现在是用selenium模拟登录拉勾不能登录 还是说拉勾用selenium模拟登录以后用cookie去伪造request不行?
2018-05-28
共4条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5829 学习 · 6293 问题

查看课程