mongodb异步存储,断点续传继续下载

来源:10-5 scrapy源码解析-connection.py、defaults.py-

右羽在岸

2017-07-12

老师,您好,图片已经可以成功保存至mongodb了,但是我现在有新的问题

多网页爬取存储数据的时候,mongodb怎么支持异步操作呢?

如果在download数据过程中, 出现异常情况,导致爬取中断,再次启动,能否接着上次的断点继续执行?如果可以,建议怎样做?

多谢老师!

写回答

1回答

bobby

2017-07-13

异步的方案很多:

    1. 使用twisted的接口去实现异步, 但是twisted学习曲线会复杂些

    2. 使用celery完成异步, 比twisted简单

如果download失败就将url导入到redis队列,或者直接使用celery的异步调用再次调用函数本身, 因为调用本身也是一个异步的过程所以不会有同步的困扰

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程