关于有的文章获取不到导致入不了数据库的问题

来源:4-19 pipeline数据库保存

碳基打工人

2021-04-02

同学们 注意 有的图片的地址是
这样的
里面的图片地址是//开头而不是 https:开头 这就导致有的文章数据能入库有的程序报错入不了
这就需要我们手动判断添加了
代码如下

有的照片以https 开头 有的是以//开头 但是//开头程序报错 因为配置的pip里面一定要是list

            # 所以图片的保存在list中
            str_image_p = response.meta.get("front_image_url", "")
            if not str_image_p.startswith("http"):
                str_image_p = "https:" + str_image_p
            article_item["front_image_url"] = [str_image_p]
写回答

1回答

碳基打工人

提问者

2021-04-02

<img src="//images0.cnblogs.com/news_topic/ITblog.jpg" class="topic_img" alt="">


0
1
bobby
这里我在本章的最后一节课中有提到关于图片url的问题
2021-04-05
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程