关于知乎自动登录后获取all_urls的一些疑问,请大家不吝赐教

来源:6-14 item loder方式提取question - 1

大话CSS

2020-06-04

环境:python3.6+tensorflow1.5+scrapy2.0+chrome78+匹配的chromedriver

最初用的python3.7+tensorflow2.2+chrome80+匹配的driver

折腾两天无果,被迫降级,汉字可以正常识别,请大家注意。

现在问题出现在首先登录时一旦添加

chrome_options.add_experimental_option(“excludeSwitches”,[‘enable-automation’])

立刻报错,报错信息如下

Message: unknown error: cannot parse capability: goog:chromeOptions

无法解析参数,百度无果,答案五花八门,大多数说的版本问题

不添加可以正常运行,出现第二个问题,问题如下

2020-06-04 01:42:35 [selenium.webdriver.remote.remote_connection] DEBUG: POST http://127.0.0.1:14208/session/d9ef584a402288b0ade307fd09aa6d3f/element {“using”: “class name”, “value”: “css-3j2kqe”,

这里我想说明一下,老师找的那个铃铛是一个svg图,我找了一个创作者中心的class
理论上不应该出现问题,就是在这里没反应了,花费至少五个小时,无果。

卡在这里没反应,也无法进入parse里面的all_urls的debug

但是这里已经顺利进入首页,只是在找首页元素时候卡住了,F12查看console报错,出现如下图所示:

图片描述
图片描述

明显知乎拒绝我获取,但我不知道是不是前面Options里面那个参数的问题,那个参数就是以开发者模式来运行,我又换了一些主页元素,还是403,到此,我无法获取主页的url,后面的抓取无法进行,希望浪费大家一点点时间,也希望bobby老师抽空解答下这个问题,如果有什么我说的不清楚的地方,请大家及时提出,两天时间一直在排错,时间成本太高。

写回答

1回答

bobby

2020-06-04

你留下qq 我加你看看吧  https://git.imooc.com/coding-92/coding-92/src/master/CookieService/services/zhihu.py 也可以看看这里的关键逻辑 这里的知乎代码我是测试过的 

0
3
bobby
回复
大话CSS
好的。
2020-06-04
共3条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5829 学习 · 6293 问题

查看课程