爬取网站直接503，怎么办？

来源：9-1 selenium动态网页请求与模拟登录知乎

天真男

2017-08-08

老师，我遇到一个网站，把start_urls输进去，就直接503

DEBUG: Retrying <GET http://www.cehui8.com> (failed 1 times): 503 Service Unavailable

RandomUserAgent也设置了，还设置了一堆这种属性

"AUTOTHROTTLE_ENABLED": True,
"AUTOTHROTTLE_START_DELAY": 5,
"AUTOTHROTTLE_MAX_DELAY": 60,
"CONCURRENT_REQUESTS_PER_DOMAIN": 1,
"ONCURRENT_REQUESTS": 1

还是不行。。怎么办？

这个网站用正常的浏览器打开，也会出现一个页面显示“浏览器安全检查中”，之后才会跳转到要访问的页面

用scrapy shell随便访问网站下的一个页面，也是503。

您帮我试试？多谢

写回答

1回答

天真男

提问者

2017-08-08

折腾了一晚上，这个站的ip被百度云加速保护的，输入网址后，会先定向到一个

http://www.cehui8.com/cdn-cgi/l/chk_jschl?jschl_vc=.....&pass=....&jschl_anwser=...这样一个网站

然后5秒后跳转到你要去的网站，要先通过503的页面取得jschl_vc和pass, 然后去研究页面上一段js去计算jschl_anwser，然后拼出这个地址，之后怎么样还不清楚。。。

老师有更好的办法吗？？

还没试过selenium行不行。

bobby

这种方案只有先去分析这种逻辑才行，当然用selenium没有问题，不过也要看是否被百度云被保护着？

2017-08-09

共1条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5825 学习 · 6292 问题

查看课程

相似问题

两个或两个以上的网站爬取算是分布式爬虫吗？我这样写可以启动无数个爬虫程序吧？为啥启动完第一个就直接结束了呢？

回答 1

基于CrawlSpider，同一份代码爬取多个网站的数据，如果限制不爬取外链网站数据

回答 2

jomashop这个网站用selector取不到东西

回答 1

老师现在拉勾网的反爬策略是什么呢？

回答 1

爬取lagou偶尔出现302

回答 1

打开慕课网App查看更多内容