提交任务一直在等待状态
来源:2-7 -Spark源码编译及部署
精慕门4081014
2019-12-23
请教一下,我装的SPARK集群的问题, 问题如下:
集群配置spark-env.sh:
Master:
export JAVA_HOME=/opt/modules/jdk1.8.0_212
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=had
oop101:2181,hadoop102:2181,hadoop103:2181 -Dspark.deploy.zookeeper.dir=/spark"export HADOOP_CONF_DIR=/opt/modules/hadoop-2.7.7/etc/hadoop
export SPARK_WORKER_MEMORY=512m
export SPARK_EXECUTOR_MEMORY=512m
export SPARK_DAEMON_MEMORY=256m
worker:
export JAVA_HOME=/opt/modules/jdk1.8.0_212
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=had
oop101:2181,hadoop102:2181,hadoop103:2181 -Dspark.deploy.zookeeper.dir=/spark"export HADOOP_CONF_DIR=/opt/modules/hadoop-2.7.7/etc/hadoop
export SPARK_WORKER_MEMORY=512m
export SPARK_EXECUTOR_MEMORY=512m
export SPARK_DAEMON_MEMORY=256m
集群是配置在虚拟机VMware里面的,三台机器,101是master,102是备用主节点和worker,103是worker
集群是能正常启动,进程如下:
我在window运行pyspark程序就一直卡住,如下图:
集群要么是等待状态,要么是运行状态,但是就是不结束:
老师可以帮忙看看是为什么吗,网上说是内存分配不够,但是我的虚拟机分配的是3G的内存,我TOP剩余内存还有1个G左右,我重新配置了spark的内存为512m,已经在可用内存内了,并且我这个计算的文件是相当小的,就几kb,代码也就几行,代码如下:
from pyspark import SparkContext
from pyspark import SparkConf
logFile = "./Pipfile"
sc = SparkContext(“spark://hadoop101:7077”, appName=“Simple”)
print(sc.getConf().getAll())
data = sc.textFile(logFile)
num1 = data.filter(lambda x: “s” in x).count()
print(num1)
1回答
-
Michael_PK
2019-12-24
信息已经提示你的集群资源不够了,你可以去UI上看看,你是否申请到了设置的资源以及是否有其他作业还在running状态导致
00
相似问题