在内存不足的情况下,需要把一个10G的txt文件导入到Mysql,并且去重。

来源:4-5 set 集合

沉默寡言黄少天丶

2020-11-27

目标

假设目前有一个10GB的TXT文件,数据量大概在7亿条,内存不足以支撑把所有数据读取到一个set()集合里面,那么有什么高效的方法,把这10GB的文件内容去重并且插入到Mysql数据库呢?

PS:
不想使用查询一次再插入一条的方法。
也不想先建立好联合索引,这种方式实在太慢了
可能要求有点多,希望老师可以给个思路!

id 和 iphone 同时重复才算是重复(联合索引)

以下2条重复有一条重复:
111111----13600000001
111111----13600000001

以下3条不重复
111111----13600000001
111111----13600000002
111112----13600000001

txt文件结构:
id----iphone
id----iphone
id----iphone
id----iphone

mock:
111111----13600000001
111111----13600000002
111113----13600000003
111114----13600000003
111114----13600000003

写回答

1回答

7七月

2020-11-27

这种情况根本就不用考虑MySQL。或者分库分表了。

0
2
7七月
回复
沉默寡言黄少天丶
大数据 MySQL的话分库分表
2020-11-30
共2条回复

Python3.8系统入门+进阶 (程序员必备第二语言)

语法精讲/配套练习+思考题/原生爬虫实战

14732 学习 · 4484 问题

查看课程