爬取西刺500错误

来源:8-6 scrapy实现ip代理池 - 1

qq_秀逗_0

2017-08-16

http://szimg.mukewang.com/599406860001f2d608220327.jpg

代码就这么点,爬取报503,

我想问的问题是,当不知是哪里出了问题的时候,应该怎么一步步判断出是哪部分出了问题

写回答

2回答

bobby

2017-08-17

因为这里代码过短 而且是和服务器交互的, 这种判断出错你是判断不了的, 因为这个错误是服务器返回的, 你可以把headers里面的user-agent换一个再试试看看, 或者你把代码贴上来 我在本地运行看看

0
1
qq_秀逗_0
非常感谢!
2017-08-18
共1条回复

qq_秀逗_0

提问者

2017-08-17

headers = {
    'User_Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:55.0) Gecko/20100101 Firefox/55.0',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Connection': 'keep-alive',
    'Host': 'www.xicidaili.com',
    'Upgrade-Insecure-Requests': '1',
    'If-None-Match': 'W/"32b598d5a14e850ba4d4050f86a3d405"',
    'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
    'Accept-Encoding': 'gzip, deflate',
}


def crawl_ips():
    url = 'http://www.xicidaili.com/nn/'
    response = requests.get(url=url, headers=headers)
    print(response.text)
    
crawl_ips()


0
2
卡卡奇
我爬这个页面的时候没啥问题,你Header不要塞太多了 url='http://www.xicidaili.com/nn/'+str(page_index) headers = { 'User-Agent': random.choice(user_agent_list)}
2017-08-20
共2条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程