老师爬完所有数据只有12w多条吗?珍爱网数据这么少?

来源:18-2 分布式爬虫架构

edenli

2018-04-11

写回答

1回答

ccmouse

2018-04-12

当然远远不止。我们研究过从首页这样进来数据重复率非常高,可能要覆盖大量的用户会花很长的时间。我们可以采用用户id自增的技巧,不断把当前用户id+1来获得新的用户,并且作为新的种子。这样应该会在用户量上有显著提升。

0
2
ccmouse
回复
edenli
如果浏览器也不能访问,那是对方的问题。如果只是禁掉爬虫,我们可能要做相应的应对,比如设置userAgent,以及cookie等,要具体来
2018-04-15
共2条回复

Google资深工程师深度讲解Go语言 由浅入深掌握Go语言

语法+分布式爬虫实战 为转型工程师量身打造

5995 学习 · 1909 问题

查看课程