关于scrapy爬取天气数据的问题
来源:4-19 pipeline数据库保存
四月C
2020-09-25
背景:
自己练手,我分析腾讯天气的页面请求,得出了Request URL: https://wis.qq.com/weather/common?source=pc&weather_type=observe|forecast_1h|forecast_24h|index|alarm|limit|tips|rise&province=上海市&city=上海市&county=
现在我有全国省市区的数据了,我用Thread的方式也能爬取了,但是经常因为报错停止,所以想用scrapy试试。
问题:
- 用scrapy时,allowed_domains = 和 start_urls = 怎么填写。
- 想查询数据库的省市区表拼成新的URL,然后yield出去,请问怎么实现?
写回答
1回答
-
bobby
2020-09-26
1. 如果使用requests有问题的话 使用scrapy并不一定能解决
2. allowed_domains = ["wis.qq.com"] start_urls就是你想要抓取的起始页
3. 覆盖start_reuests方法 在该方法中自己拼接url 重新生成新的request 逐个yield出去即可
4. 如果自己有能力重写start_requests方法 那么start_urls随便写, 因为默认的start_requests就是从start_urls中逐个获取url并yield出去而已
022020-09-28
相似问题
scrapy-redis怎么做增量爬取
回答 1
解决反爬问题
回答 2