在解析的过程，有多个url被yield跟进爬取时，如何保证都解析完成，才被yield给pipelines

来源：6-17 知乎spider爬虫逻辑的实现以及answer的提取 - 1

慕尼黑7546459

2019-12-26

老师，如下图，在解析的过程中，有多个被yield出去的url，我现在是 callback=self.parse_celebrities 的 parse_celebrities方法中yield yield movie_item交给pipelines。
发现【获奖情况】获【短评】的信息还没被解析完，就执行到pipelines了，导致最终保存时数据缺失，对于这种情况，如何保证都解析完了，才会提交到pipelines呢？图片描述

写回答

1回答

bobby

2019-12-27

只有yield出去item的时候才会进入pipeline，你这里是yield的request是不会进入pipeline的，获奖短评是在parse_celebrities中解析的吗？

bobby

慕尼黑7546459

这个简单啊，你在parse_detail中将获奖情况的解析交给callback= parse_awards ，但是跟进爬取【短评】应该在parse_awards 中完成也就是抓取完获奖情况后才抓取短评，后续的演员表也是应该在parse_comments 解析完成以后才能进行。最后的item在parse_celebrities 之后进行，这样就能保证顺序了

2019-12-29

共2条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5828 学习 · 6293 问题

查看课程

相似问题

crawlspider中能yield出去 Request的吗？

回答 1

crawlspider 分布式是先爬网页再解析网页吗

回答 2

yield 和 return的问题

回答 1

老师我debug一直重复这yield一条，进不去parse_nums

回答 1

基于CrawlSpider，同一份代码爬取多个网站的数据，如果限制不爬取外链网站数据

回答 2

打开慕课网App查看更多内容