爬取网站直接503,怎么办?

来源:9-1 selenium动态网页请求与模拟登录知乎

天真男

2017-08-08

老师,我遇到一个网站,把start_urls输进去,就直接503

DEBUG: Retrying <GET http://www.cehui8.com> (failed 1 times): 503 Service Unavailable

RandomUserAgent也设置了,还设置了一堆这种属性

"AUTOTHROTTLE_ENABLED": True,
"AUTOTHROTTLE_START_DELAY": 5,
"AUTOTHROTTLE_MAX_DELAY": 60,
"CONCURRENT_REQUESTS_PER_DOMAIN": 1,
"ONCURRENT_REQUESTS": 1

还是不行。。怎么办?

这个网站用正常的浏览器打开,也会出现一个页面显示“浏览器安全检查中”,之后才会跳转到要访问的页面

用scrapy shell随便访问网站下的一个页面,也是503。

您帮我试试?多谢

写回答

1回答

天真男

提问者

2017-08-08

折腾了一晚上,这个站的ip被百度云加速保护的,输入网址后,会先定向到一个

http://www.cehui8.com/cdn-cgi/l/chk_jschl?jschl_vc=.....&pass=....&jschl_anwser=...这样一个网站

然后5秒后跳转到你要去的网站,要先通过503的页面取得jschl_vc和pass, 然后去研究页面上一段js去计算jschl_anwser,然后拼出这个地址,之后怎么样还不清楚。。。

老师有更好的办法吗??

还没试过selenium行不行。

0
1
bobby
这种方案 只有先去分析这种逻辑才行, 当然用selenium没有问题, 不过也要看是否被百度云被保护着?
2017-08-09
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程