关于知乎图片下载和问答内容处理的一些疑问

来源:6-21 保存数据到mysql中 -3

浮生长恨欢娱少

2020-12-06

老师你好,请问你几个问题!

1.scrapy有没有什么方法针对知乎问题的不同回答进行进一步处理,去除标签,只保留文字部分入库。

2. 对于知乎问题的一些回答中含有图片的,如何针对具体回答提取图片并下载保存,希望老师能提供一些思路和方法。

写回答

1回答

bobby

2020-12-07

  1. 取出html标签我会在拉钩网的抓取中介绍。 python内置的有库可以一键去除所有的html标签

  2. 图片下载比较容易,你只需要按照cnblogs中介绍的,你使用一个xpath语句可以提取所有的img标签中的图片url,你只需要将这些url放入到指定的item中的一个图片的url即可

0
3
bobby
回复
浮生长恨欢娱少
加你了
2020-12-11
共3条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程