增量爬虫那种方案好
来源:14-12 获取和解析详情页 - 1

慕无忌8052570
2020-10-22
问题1:爬取小说目录,已经爬取过的url不做爬取,有更新的url就去做爬取。这样减少IP使用和成本问题。
问题2:云服务器的IP地址是固定么,有变动这种说法?
下面的方法都有优缺点。(有更好的办法么)
写回答
1回答
-
这些方案我在另一门scrapy课程中讲解过,也集成了scrapy_redis和布隆过滤器。 选择方案: 1. 如果数据量不大,使用redis就足够了。 如果数据量很大,比如上亿了 那么使用布隆过滤器把
00
相似问题