翻页如何处理,我如果爬取全网的内容呢?

来源:15-10 单任务版爬虫性能

Jarrott

2018-02-12

go 爬虫如何处理翻页

写回答

1回答

ccmouse

2018-02-13

通常翻页主要有两种。

第一种是找到翻页按钮,看一下它指向哪里,再把那个目标url送给ParseCity。

第二种是观察下一页url的格式,我们会发现zhenai.com里面下一页就是url后面加个/2, /3, ..., (如http://www.zhenai.com/zhenghun/ali/3)  那么我们也可以不找下一页按钮,直接在url后面拖一个尾巴。

在后面的并发版爬虫性能上来后,我们会使用第一种方法去翻页。

1
0

Google资深工程师深度讲解Go语言 由浅入深掌握Go语言

语法+分布式爬虫实战 为转型工程师量身打造

5995 学习 · 1909 问题

查看课程