关于知乎图片下载和问答内容处理的一些疑问
来源:6-21 保存数据到mysql中 -3
浮生长恨欢娱少
2020-12-06
老师你好,请问你几个问题!
1.scrapy有没有什么方法针对知乎问题的不同回答进行进一步处理,去除标签,只保留文字部分入库。
2. 对于知乎问题的一些回答中含有图片的,如何针对具体回答提取图片并下载保存,希望老师能提供一些思路和方法。
写回答
1回答
-
取出html标签我会在拉钩网的抓取中介绍。 python内置的有库可以一键去除所有的html标签
图片下载比较容易,你只需要按照cnblogs中介绍的,你使用一个xpath语句可以提取所有的img标签中的图片url,你只需要将这些url放入到指定的item中的一个图片的url即可
032020-12-11
相似问题