双item插入mysql两表 数量差距过大
来源:6-19 保存数据到mysql中 -1
橘子煲汤
2020-03-06
我的代码逻辑大概是这样的
def parse1()
yield parse2
yield parse3
def parse2()
return item1#第一个item
def parse3()
yield parse4
def parse4()
return item2#第二个item
然后在每个item中写了get_insert语句 在pipeline中使用了老师提供的异步插入mysql的代码
每个item都对应各自的一张表
但是在爬取了一段时间后 我发现mysql里两张表插入的数据悬殊很大 两表的行数应该是一样的才对
第一个item对应的表插入了27w条数据 而第二个item对应的表只插入了1w多条
我猜测是大量使用了异步的原因 第二个item对应的表很多还没来得及插入 但是我爬取的网站数据量很大 我不可能全都爬完 比如说我只想爬十万条数据 那应该是表1插入十万条以及表2插入十万条数据 这应该是如何做到? 或者对于这种情况老师有什么好的建议?
写回答
1回答
-
bobby
2020-03-06
可以统计看看是否两个网址的抓取的数量确实是一致的? 课程后面有讲解如何获取内部变量
022020-03-08
相似问题