真爱网现在爬取不了了 大家都爬什么网站啊?
来源:15-10 单任务版爬虫性能

慕数据1158525
2020-03-16
如题 想找一个可以爬取的网站
写回答
2回答
-
慕数据1158525
提问者
2020-03-18
如果真爱网爬不了的话可以试试爬取这个http://www.7799520.com/jiaou
到单任务爬虫的两个正则表达式是:第一个
<a href="(http://www.7799520.com/jiaou/[0-9a-z]+)"[^>]*>([^<]+)</a>
第二个
<a class="name" href="(http://[^\s]+)" target="_blank">([^<]+)</a></h3>
20 -
慕虎5456281
2021-09-22
目前zhengai网爬取频繁会被限制一段时间,返回403状态码,可以使用https://www.zhenai.com/zhenghun作为种子url,fetch的request设置user-agent头可以避免403状态码的出现,也可以限制请求的频率,在爬取个人详情页内容时的正则匹配有变化:
<div class="des f-cl" data-v-4c07f04e>阿坝 | 34岁 | 高中及以下 | 未婚 | 181cm | 5001-8000元</div>
00
相似问题