深度优先,广度优先,CrawlSpider,非完全pagerank策略

来源:8-5 通过downloadmiddleware随机更换user-agent - 2

战战的坚果

2019-06-11

老师,爬取什么样子的网站适合用深度优先策略进行爬取?,例如知乎。
爬取什么样子的网站适合用广度优先策略进行爬取?
爬取什么样子的网站适合用CrawlSpider进行爬取?
爬取什么样子的网站适合用非完全pagerank策略策略进行爬取?

我现在知道这么多方法,但是遇到一个新网站的时候,我还是不知道应该用哪种方法进行爬取,这个和你想要爬取的网站的url结构有关吗?,比如说为什么知乎选取了深度优先策略,相比于用广度优先策略爬取知乎,深度优先爬取知乎有什么优点吗?

写回答

1回答

bobby

2019-06-13

深度优先和广度优先抓取的策略而已,如果你的目的是为了抓取到想要的数据使用深度优先和广度优先都是一样的,scrapy默认是深度优先,深度优先以伯乐在线讲解:

    抓取到一个列表页的数据后是应该快速的去抓取每个页面的详情还是继续抓取下一个列表页?

深度优先可以尽快的将文章的详情页抓取下来,广度优先是先抓取到所有的文章url,然后再去抓取每个文章的详情页,至于最终的结果都是能抓取完全的,但是从中间结果来看深度优先可以尽量的确保快速的抓取到详情页,截图的需求得看你的业务需求是什么

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程