老师,聊一下作业 和 规避问题

来源:5-5 -yarn运行模式详解

Muller_Lcy

2018-07-14

为什么需要配置HADOOP_CONF_DIR?

      spark 想要跑在yarn 上势必要知道HDFS 和 yarn 的信息,不然 spark怎么找到yarn 

      这其实是 spark 操作 hive 中的数据 需要hive-site.xml  是一个道理

规避 WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive

    yarn 需要使用spark 的依赖包

    1、在 HDFS 上创建 一个目录(用来保存 spark 的jar 包)

    2、将 Spark 的安装目录下的 jars 文件夹下的所有 jar 包都上传上去(其实 我想没有必要全部都上传的 但是不知道具体该上传哪些 干脆全部算了)

    3、修改 Spark 的安装目录下的 conf 文件夹下 spark-defaults.conf 添加如下配置

            spark.yarn.jars = 第一步的地址


最后老师 我想问一下 spark.yarn.archive  这配置 说的是 开发pyspark 程序依赖的哪两个 zip 包吧,

    我试着把它们上传到了 HDFS 上  也添加了 spark-defaults.conf 的设置(反而报 目录不存在错误)

    不配置的话 yarn 还是会去 uploading。

    求解 求解。。。。     

写回答

1回答

Michael_PK

2018-07-15

spark.yarn.jars说法完全正确!!!  但是spark.yarn.archive的操作不是你这样的,你这样应该不生效,你试着去google查询spark.yarn.archive的用法,我相信你能搞定的!!!!退一万步讲,如果没搞定,再找我,哈哈哈

0
5
Muller_Lcy
我就知道 其实就是 spark.yarn.jars 指定的目录下的所有jar包 打成一个zip包 其实我已经这么做了 只是我发现yarn还是会去本地spark的目录加载 Python的那两个zip包 所以觉得是自己还做的不够。。。 (感觉受到一万点暴击 委屈ing....)
2018-07-16
共5条回复

Python3实战Spark大数据分析及调度

使用Python3对Spark应用程序进行开发调优,掌握Azkaban任务调度

1046 学习 · 434 问题

查看课程