scrapy-redis怎么在外部进程yield到某一spider的Request中?

来源:1-1 python分布式爬虫打造搜索引擎简介

慕粉3691223

2019-05-29

我在实际使用中,我都是用start_url来驱动爬虫开始的,
但是有时候我只是想走几条实际数据,一般怎么操作比较好的?

写回答

1回答

bobby

2019-05-30

start_url只是爬虫的开始而已,爬虫的实际过程中会产生更多的url,这些url都是放到redis中的, 如果想要自己写脚本 就要看一下课程中中讲解到的scrapy-redis的源码中有讲解如何将request生成一个对象放入到redis中,自己用脚本模拟一下就可以驱动scrapy-redis运行了

0
7
慕粉3691223
回复
bobby
哈,是啊,非常感谢!
2019-06-05
共7条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程