增量爬虫那种方案好

来源:14-12 获取和解析详情页 - 1

慕无忌8052570

2020-10-22

问题1:爬取小说目录,已经爬取过的url不做爬取,有更新的url就去做爬取。这样减少IP使用和成本问题。

问题2:云服务器的IP地址是固定么,有变动这种说法?

下面的方法都有优缺点。(有更好的办法么)

图片描述

图片描述

写回答

1回答

bobby

2020-10-23

这些方案我在另一门scrapy课程中讲解过,也集成了scrapy_redis和布隆过滤器。 选择方案: 1. 如果数据量不大,使用redis就足够了。 如果数据量很大,比如上亿了 那么使用布隆过滤器把

0
0

Python爬虫工程师实战 大数据时代必备

慕课网严选精品教程,高质量内容+服务!

2381 学习 · 1158 问题

查看课程