爬取西刺500错误

来源：8-6 scrapy实现ip代理池 - 1

qq_秀逗_0

2017-08-16

代码就这么点，爬取报503，

我想问的问题是，当不知是哪里出了问题的时候，应该怎么一步步判断出是哪部分出了问题

写回答

2回答

bobby

2017-08-17

已采纳

因为这里代码过短而且是和服务器交互的，这种判断出错你是判断不了的，因为这个错误是服务器返回的，你可以把headers里面的user-agent换一个再试试看看，或者你把代码贴上来我在本地运行看看

qq_秀逗_0

非常感谢！

2017-08-18

共1条回复

qq_秀逗_0

提问者

2017-08-17

headers = {
    'User_Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:55.0) Gecko/20100101 Firefox/55.0',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Connection': 'keep-alive',
    'Host': 'www.xicidaili.com',
    'Upgrade-Insecure-Requests': '1',
    'If-None-Match': 'W/"32b598d5a14e850ba4d4050f86a3d405"',
    'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
    'Accept-Encoding': 'gzip, deflate',
}


def crawl_ips():
    url = 'http://www.xicidaili.com/nn/'
    response = requests.get(url=url, headers=headers)
    print(response.text)
    
crawl_ips()

卡卡奇

我爬这个页面的时候没啥问题，你Header不要塞太多了 url='http://www.xicidaili.com/nn/'+str(page_index) headers = { 'User-Agent': random.choice(user_agent_list)}

2017-08-20

共2条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5825 学习 · 6293 问题

查看课程

相似问题

西刺被锁了。。。

回答 1

知乎爬取302错误，无法爬取