老师,聊一下作业 和 规避问题
来源:5-5 -yarn运行模式详解
Muller_Lcy
2018-07-14
为什么需要配置HADOOP_CONF_DIR?
spark 想要跑在yarn 上势必要知道HDFS 和 yarn 的信息,不然 spark怎么找到yarn
这其实是 spark 操作 hive 中的数据 需要hive-site.xml 是一个道理
规避 WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive
yarn 需要使用spark 的依赖包
1、在 HDFS 上创建 一个目录(用来保存 spark 的jar 包)
2、将 Spark 的安装目录下的 jars 文件夹下的所有 jar 包都上传上去(其实 我想没有必要全部都上传的 但是不知道具体该上传哪些 干脆全部算了)
3、修改 Spark 的安装目录下的 conf 文件夹下 spark-defaults.conf 添加如下配置
spark.yarn.jars = 第一步的地址
最后老师 我想问一下 spark.yarn.archive 这配置 说的是 开发pyspark 程序依赖的哪两个 zip 包吧,
我试着把它们上传到了 HDFS 上 也添加了 spark-defaults.conf 的设置(反而报 目录不存在错误)
不配置的话 yarn 还是会去 uploading。
求解 求解。。。。
1回答
-
spark.yarn.jars说法完全正确!!! 但是spark.yarn.archive的操作不是你这样的,你这样应该不生效,你试着去google查询spark.yarn.archive的用法,我相信你能搞定的!!!!退一万步讲,如果没搞定,再找我,哈哈哈
052018-07-16
相似问题