robots协议还有看不懂的

来源:3-3 爬虫是万能的吗?

苦瓜苦也

2021-01-27

User-agent:*
Allow:/
Disallow://
Disallow:/Article_1/Article_Complaint.aspx
Disallow:/List/List/Oil/

Sitemap: https://www.tuhu.cn/sitemap1.xml
Sitemap: https://www.tuhu.cn/sitemap2.xml

Disallow:// 什么意思?
Sitemap又是什么意思?

写回答

1回答

慕勒20277

2021-01-28

Sitemap 可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页。

Disallow 是不可以爬的东西

Allow是可以爬的

0
1
bobby
正解 网上关于robots协议的讲解很多 可以百度一下 很详细 而且也简单
2021-01-29
共1条回复

Python爬虫工程师实战 大数据时代必备

慕课网严选精品教程,高质量内容+服务!

2377 学习 · 1158 问题

查看课程