老师，爬取备份需要账号登录的且特殊格式的网站失败，有什么思路吗？

来源：3-1 技术选型爬虫能做什么

神经旷野舞者

2018-09-02

目前自己有个快到期的课程，想备份下来让自己之后学习。该网站需要登录，但是我ctrl+s后，打开的html是404如下图所示，出入很大。

网站内容是卡片形式的，正反面，有文字和视频。

我现在想最好能原样爬取备份网站内容，至少要目录化保持内容，怎么弄呢？

现在水平是前端和爬虫还没入门，想借助本课程的知识点做这个事情，不知道如何入手。

困惑的地方是：

直接保存html打开后是404，不知道是不是要登录。

//img.mukewang.com/szimg/5b8b02780001003b10390611.jpg

内容是卡片形式的，不懂js和css，不清楚这种形式的如何保持原样。

//img.mukewang.com/szimg/5b8b0278000176c209380540.jpg

//img.mukewang.com/szimg/5b8b027800017da308730553.jpg

写回答

1回答

bobby

2018-09-03

已采纳

首先把如果网站的数据是动态的比如是ajax请求返回来的，那你保存html的时候这些数据是没有的，这个是动态网页技术你可以看看后面的动态网站抓取技术再看看能不能满足你的需求

bobby

神经旷野舞者

我没有看到网页不能确定

2018-09-04

共2条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

相似问题

回答 2

回答 2

回答 2

回答 2

回答 1