wholeTextFile 的partition 个数始终为 1

来源:3-10 -RDD创建方式二

Muller_Lcy

2018-07-12

源码:

    def wholeTextFiles(self, path, minPartitions=None, use_unicode=True):

虽然默认 minPartitions 是空的  但是 无论是 使用代名参数 还是 匿名参数的形式 去设置它 好像都不起作用

后来我想 这个可能跟文件大小 有关  我把文件大小增加到 300M 还是只有一个 task (接着就卡住了)

网上转了一圈 也没有找到 怎么设置 partition 个数的帖子。。。

对了 拿到value 后 这个不是一个 list 所以要拿每个元素 要自己 for in  


写回答

1回答

Michael_PK

2018-07-12

参数直接把你想要的数字传进去就行了,建议用文本数据测试,别用压缩文件,因为有些压缩文件split不了

0
2
Michael_PK
回复
Muller_Lcy
默认是根据资源的,手工设置就是以自己设置的为准,你可以跟下源码就知道了
2018-07-12
共2条回复

Python3实战Spark大数据分析及调度

使用Python3对Spark应用程序进行开发调优,掌握Azkaban任务调度

1046 学习 · 434 问题

查看课程