在redis分布式基础上如何加入多进程?

来源:10-9 集成bloomfilter到scrapy-redis中

asdhjhg

2017-07-28

在redis分布式基础上如何加入多进程?网上看了很多教程还是没弄会,怎么破?

写回答

1回答

bobby

2017-07-28

http://blog.csdn.net/loguat/article/details/73550780

你可以看看这篇文章, 但是我是不建议你去用多进程实现的, 第一对于网络io这种操作, 多进程几乎没有任何性能上的提升, 因为性能都在网口上, 和几乎没有任何关系, 多进程只会增加你的代码复杂度, 第二 当时调用crawl spider zhihu 启动一个spider的时候 就已经是一个进程了, 你多启动几次就是多少个进程了

0
2
bobby
回复
asdhjhg
大幅度提升单服务器多进程不光不能提高性能 而且代码很难维护, 如果要大规模爬取, 一定要通过分布式来完成, 有些大公司光爬虫服务器就是上千台, 单服务器不管如何提高都对性能提升有限, 毕竟宽带有限, 有些爬虫服务器甚至可以部署到爬取网站的同一个城市去
2017-07-31
共2条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程