关于Spark编译文件夹的目的的疑问

来源：3-11 -使用IDE开发pyspark应用程序

慕妹6004802

2021-11-15

您好老师，我想问一下为什么特意要编译spark-2.3.1-bin-2.6.0-cdh5.7.0这个文件夹啊，如果直接使用原本的Spark文件夹比如spark-2.3.1，会有什么缺陷呢？如果我直接使用spark-x.x.x这种原文件夹的话，会有什么问题呢？

我目前看到的不同好像是spark-2.3.1-bin-2.6.0-cdh5.7.0会比spark-2.3.1少了些文件夹内容，以及spark-2.3.1/python/lib/里面没有pyspark.zip这个文件。

写回答

1回答

Michael_PK

2021-11-15

为什么要编译，其实有2个出发点：

1）你的hadoop版本未必就能和spark提供的安装包对应上，我们生产就遇到过，hadoop版本有些许的差别，导致有些功能用不了

2）编译源码是作为大数据开发人员必备的技能，因为在工作中经常会遇到修改spark源码，然后重新打包，部署

总结：这2点才是要求编译spark源码的真正目的所在。

Python3实战Spark大数据分析及调度

使用Python3对Spark应用程序进行开发调优，掌握Azkaban任务调度

1046 学习 · 434 问题

相似问题

回答 1

回答 1

回答 1

回答 1

回答 3