关于Spark编译文件夹的目的的疑问
来源:3-11 -使用IDE开发pyspark应用程序
慕妹6004802
2021-11-15
您好老师,我想问一下为什么特意要编译spark-2.3.1-bin-2.6.0-cdh5.7.0这个文件夹啊,如果直接使用原本的Spark文件夹比如spark-2.3.1,会有什么缺陷呢?如果我直接使用spark-x.x.x这种原文件夹的话,会有什么问题呢?
我目前看到的不同好像是spark-2.3.1-bin-2.6.0-cdh5.7.0会比spark-2.3.1少了些文件夹内容,以及spark-2.3.1/python/lib/里面没有pyspark.zip这个文件。
写回答
1回答
-
Michael_PK
2021-11-15
为什么要编译,其实有2个出发点:
1)你的hadoop版本未必就能和spark提供的安装包对应上,我们生产就遇到过,hadoop版本有些许的差别,导致有些功能用不了
2)编译源码是作为大数据开发人员必备的技能,因为在工作中经常会遇到修改spark源码,然后重新打包,部署
总结:这2点才是要求编译spark源码的真正目的所在。
00
相似问题