在内存不足的情况下,需要把一个10G的txt文件导入到Mysql,并且去重。
来源:4-5 set 集合

沉默寡言黄少天丶
2020-11-27
目标
假设目前有一个10GB的TXT文件,数据量大概在7亿条,内存不足以支撑把所有数据读取到一个set()集合里面,那么有什么高效的方法,把这10GB的文件内容去重并且插入到Mysql数据库呢?
PS:
不想使用查询一次再插入一条的方法。
也不想先建立好联合索引,这种方式实在太慢了
可能要求有点多,希望老师可以给个思路!
id 和 iphone 同时重复才算是重复(联合索引)
以下2条重复有一条重复:
111111----13600000001
111111----13600000001
以下3条不重复
111111----13600000001
111111----13600000002
111112----13600000001
txt文件结构:
id----iphone
id----iphone
id----iphone
id----iphone
mock:
111111----13600000001
111111----13600000002
111113----13600000003
111114----13600000003
111114----13600000003
写回答
1回答
-
7七月
2020-11-27
这种情况根本就不用考虑MySQL。或者分库分表了。
022020-11-30
相似问题