爬取网站直接503,怎么办?
来源:9-1 selenium动态网页请求与模拟登录知乎
天真男
2017-08-08
老师,我遇到一个网站,把start_urls输进去,就直接503
DEBUG: Retrying <GET http://www.cehui8.com> (failed 1 times): 503 Service Unavailable
RandomUserAgent也设置了,还设置了一堆这种属性
"AUTOTHROTTLE_ENABLED": True,
"AUTOTHROTTLE_START_DELAY": 5,
"AUTOTHROTTLE_MAX_DELAY": 60,
"CONCURRENT_REQUESTS_PER_DOMAIN": 1,
"ONCURRENT_REQUESTS": 1
还是不行。。怎么办?
这个网站用正常的浏览器打开,也会出现一个页面显示“浏览器安全检查中”,之后才会跳转到要访问的页面
用scrapy shell随便访问网站下的一个页面,也是503。
您帮我试试?多谢
写回答
1回答
-
天真男
提问者
2017-08-08
折腾了一晚上,这个站的ip被百度云加速保护的,输入网址后,会先定向到一个
http://www.cehui8.com/cdn-cgi/l/chk_jschl?jschl_vc=.....&pass=....&jschl_anwser=...这样一个网站
然后5秒后跳转到你要去的网站,要先通过503的页面取得jschl_vc和pass, 然后去研究页面上一段js去计算jschl_anwser,然后拼出这个地址,之后怎么样还不清楚。。。
老师有更好的办法吗??
还没试过selenium行不行。
012017-08-09
相似问题