老师,这里登陆成功了,但是提取all_urls的时候只有https://www.zhihu.com

来源:6-14 item loder方式提取question - 1

panda6335

2017-10-13

http://img1.sycdn.imooc.com/szimg/59e083af0001759107380530.jpg

写回答

1回答

panda6335

提问者

2017-10-13

问题已经解决:

all_urls = response.css("a::attr(href)").extract_first()  改为 extract() 就行了  是为什么呢?


0
1
bobby
extract()是提取所有的url extract_first()只会提取第一个, 如果提取到的数字里面第一个值空那么返回的就会为空, 至于为什么会有空值存在就和html结构本身有关系, 比如有换行
都容易造成这样
2017-10-16
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程