真爱网现在爬取不了了 大家都爬什么网站啊?

来源:15-10 单任务版爬虫性能

慕数据1158525

2020-03-16

如题 想找一个可以爬取的网站

写回答

2回答

慕数据1158525

提问者

2020-03-18

如果真爱网爬不了的话可以试试爬取这个http://www.7799520.com/jiaou

到单任务爬虫的两个正则表达式是:第一个

<a href="(http://www.7799520.com/jiaou/[0-9a-z]+)"[^>]*>([^<]+)</a>

第二个

<a class="name" href="(http://[^\s]+)" target="_blank">([^<]+)</a></h3>


2
0

慕虎5456281

2021-09-22

目前zhengai网爬取频繁会被限制一段时间,返回403状态码,可以使用https://www.zhenai.com/zhenghun作为种子url,fetch的request设置user-agent头可以避免403状态码的出现,也可以限制请求的频率,在爬取个人详情页内容时的正则匹配有变化: 

<div class="des f-cl" data-v-4c07f04e>阿坝 | 34岁 | 高中及以下 | 未婚 | 181cm | 5001-8000元</div>


0
0

Google资深工程师深度讲解Go语言 由浅入深掌握Go语言

语法+分布式爬虫实战 为转型工程师量身打造

5995 学习 · 1908 问题

查看课程