老师，聊一下作业和规避问题

来源：5-5 -yarn运行模式详解

Muller_Lcy

2018-07-14

为什么需要配置HADOOP_CONF_DIR?

spark 想要跑在yarn 上势必要知道HDFS 和 yarn 的信息，不然 spark怎么找到yarn

这其实是 spark 操作 hive 中的数据需要hive-site.xml 是一个道理

规避 WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive

yarn 需要使用spark 的依赖包

1、在 HDFS 上创建一个目录(用来保存 spark 的jar 包)

2、将 Spark 的安装目录下的 jars 文件夹下的所有 jar 包都上传上去(其实我想没有必要全部都上传的但是不知道具体该上传哪些干脆全部算了)

3、修改 Spark 的安装目录下的 conf 文件夹下 spark-defaults.conf 添加如下配置

spark.yarn.jars = 第一步的地址

最后老师我想问一下 spark.yarn.archive 这配置说的是开发pyspark 程序依赖的哪两个 zip 包吧，

我试着把它们上传到了 HDFS 上也添加了 spark-defaults.conf 的设置（反而报目录不存在错误）

不配置的话 yarn 还是会去 uploading。

求解求解。。。。

写回答

1回答

Michael_PK

2018-07-15

已采纳

spark.yarn.jars说法完全正确！！！但是spark.yarn.archive的操作不是你这样的，你这样应该不生效，你试着去google查询spark.yarn.archive的用法，我相信你能搞定的！！！！退一万步讲，如果没搞定，再找我，哈哈哈

Muller_Lcy

我就知道其实就是 spark.yarn.jars 指定的目录下的所有jar包打成一个zip包其实我已经这么做了只是我发现yarn还是会去本地spark的目录加载 Python的那两个zip包所以觉得是自己还做的不够。。。（感觉受到一万点暴击委屈ing....）

2018-07-16

共5条回复

Python3实战Spark大数据分析及调度

使用Python3对Spark应用程序进行开发调优，掌握Azkaban任务调度

1046 学习 · 434 问题

相似问题

回答 1

回答 1

回答 1

回答 2

回答 1