关于Spark编译文件夹的目的的疑问

来源:3-11 -使用IDE开发pyspark应用程序

慕妹6004802

2021-11-15

您好老师,我想问一下为什么特意要编译spark-2.3.1-bin-2.6.0-cdh5.7.0这个文件夹啊,如果直接使用原本的Spark文件夹比如spark-2.3.1,会有什么缺陷呢?如果我直接使用spark-x.x.x这种原文件夹的话,会有什么问题呢?

我目前看到的不同好像是spark-2.3.1-bin-2.6.0-cdh5.7.0会比spark-2.3.1少了些文件夹内容,以及spark-2.3.1/python/lib/里面没有pyspark.zip这个文件。

写回答

1回答

Michael_PK

2021-11-15

为什么要编译,其实有2个出发点:

1)你的hadoop版本未必就能和spark提供的安装包对应上,我们生产就遇到过,hadoop版本有些许的差别,导致有些功能用不了

2)编译源码是作为大数据开发人员必备的技能,因为在工作中经常会遇到修改spark源码,然后重新打包,部署


总结:这2点才是要求编译spark源码的真正目的所在。

0
0

Python3实战Spark大数据分析及调度

使用Python3对Spark应用程序进行开发调优,掌握Azkaban任务调度

1046 学习 · 434 问题

查看课程