Filtered offsite request to

来源:1-1 python分布式爬虫打造搜索引擎简介

mdarker

2021-05-15

DEBUG: Filtered offsite request to ‘account.cnblogs.com’: <GET https://account.cnblogs.com:443/NewsAjax/GetAjaxNewsInfo?contentId=443>
老师
爬取博客园解析域名出错了 account.cnbolgs.com是登录页面吧 不知道为什么

name = "jobbole"
allowed_domains = ['news.cnblogs.com']
start_urls = ['https://news.cnblogs.com/']

源码写的跟您一样的

写回答

3回答

mdarker

提问者

2021-05-18

//img.mukewang.com/szimg/60a319bc0918d6c418370889.jpg老师 您看一下

0
1
bobby
目前cnblogs看每个新闻都需要登录才能访问了, 可以先看看5-2小节然后模拟登录再看后续小节
2021-05-19
共1条回复

bobby

2021-05-17

你把完整的错误栈代码截图我看看

0
1
mdarker
发在上边了
2021-05-18
共1条回复

mdarker

提问者

2021-05-16

老师  求回复

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程