增量爬虫那种方案好

首页课程实战体系课手记专栏慕课教程

增量爬虫那种方案好

来源：14-12 获取和解析详情页 - 1

慕无忌8052570

2020-10-22

问题1：爬取小说目录，已经爬取过的url不做爬取，有更新的url就去做爬取。这样减少IP使用和成本问题。

问题2:云服务器的IP地址是固定么，有变动这种说法？

下面的方法都有优缺点。（有更好的办法么）

图片描述

图片描述

写回答

1回答

bobby

bobby

2020-10-23

已采纳

这些方案我在另一门scrapy课程中讲解过，也集成了scrapy_redis和布隆过滤器。选择方案： 1. 如果数据量不大，使用redis就足够了。如果数据量很大，比如上亿了那么使用布隆过滤器把

0

0

Python爬虫工程师实战大数据时代必备

慕课网严选精品教程，高质量内容+服务！

2402 学习 · 1158 问题

相似问题

关于爬虫发展前景

回答 1

如何做好网络爬虫工程师

回答 2

老师下一门的Python爬虫系列实战课程是《高级爬虫工程师》？

回答 1

搜索引擎是不是一个大型爬虫？

回答 2

scrapy能运行多个爬虫吗？

回答 2

打开慕课网App查看更多内容