关于scrapy爬取天气数据的问题

来源:4-19 pipeline数据库保存

四月C

2020-09-25

现在我有全国省市区的数据了,我用Thread的方式也能爬取了,但是经常因为报错停止,所以想用scrapy试试。

问题:

  1. 用scrapy时,allowed_domains = 和 start_urls = 怎么填写。
  2. 想查询数据库的省市区表拼成新的URL,然后yield出去,请问怎么实现?
写回答

1回答

bobby

2020-09-26

1. 如果使用requests有问题的话 使用scrapy并不一定能解决

2. allowed_domains = ["wis.qq.com"] start_urls就是你想要抓取的起始页

3. 覆盖start_reuests方法 在该方法中自己拼接url 重新生成新的request 逐个yield出去即可

4. 如果自己有能力重写start_requests方法 那么start_urls随便写, 因为默认的start_requests就是从start_urls中逐个获取url并yield出去而已

0
2
bobby
回复
四月C
写在start_requests中啊,其实你也不用担心,后面会讲解scrapy-redis 到时候你将url直接放在redis的某个队列中就行了
2020-09-28
共2条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程