follow后的链接,怎么爬取数据

来源:7-4 Rule和LinkExtractor使用

大发多一点

2017-11-08

通过源码得知,rule.callback只对图一的第三个Rule有效,那第一、二个Rule跟踪到的url放在哪里?又怎么会被第三个Rule的callback调用?

http://img.mukewang.com/szimg/5a02636f0001198407080103.jpg

http://img.mukewang.com/szimg/5a02637600012b3609500085.jpg


写回答

1回答

bobby

2017-11-09

_requests_to_follow
 你要先看这个函数 实际上在这个函数里面才是逻辑 已经把rule放到request中去了, request中url是会直接进入对应的response的。 你看到的函数只是从response中取出的rule不代表只能匹配最后一个rule

0
1
大发多一点
非常感谢!
2017-11-11
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程