关于知乎自动登录后获取all_urls的一些疑问,请大家不吝赐教
来源:6-14 item loder方式提取question - 1
大话CSS
2020-06-04
环境:python3.6+tensorflow1.5+scrapy2.0+chrome78+匹配的chromedriver
最初用的python3.7+tensorflow2.2+chrome80+匹配的driver
折腾两天无果,被迫降级,汉字可以正常识别,请大家注意。
现在问题出现在首先登录时一旦添加:
chrome_options.add_experimental_option(“excludeSwitches”,[‘enable-automation’])
立刻报错,报错信息如下:
Message: unknown error: cannot parse capability: goog:chromeOptions
无法解析参数,百度无果,答案五花八门,大多数说的版本问题
不添加可以正常运行,出现第二个问题,问题如下:
2020-06-04 01:42:35 [selenium.webdriver.remote.remote_connection] DEBUG: POST http://127.0.0.1:14208/session/d9ef584a402288b0ade307fd09aa6d3f/element {“using”: “class name”, “value”: “css-3j2kqe”,
这里我想说明一下,老师找的那个铃铛是一个svg图,我找了一个创作者中心的class
理论上不应该出现问题,就是在这里没反应了,花费至少五个小时,无果。
卡在这里没反应,也无法进入parse里面的all_urls的debug
但是这里已经顺利进入首页,只是在找首页元素时候卡住了,F12查看console报错,出现如下图所示:


明显知乎拒绝我获取,但我不知道是不是前面Options里面那个参数的问题,那个参数就是以开发者模式来运行,我又换了一些主页元素,还是403,到此,我无法获取主页的url,后面的抓取无法进行,希望浪费大家一点点时间,也希望bobby老师抽空解答下这个问题,如果有什么我说的不清楚的地方,请大家及时提出,两天时间一直在排错,时间成本太高。
1回答
-
你留下qq 我加你看看吧 https://git.imooc.com/coding-92/coding-92/src/master/CookieService/services/zhihu.py 也可以看看这里的关键逻辑 这里的知乎代码我是测试过的
032020-06-04
相似问题