关于在Spark集群中读取本地文件抛出找不到文件异常的问题

来源:6-6 -Spark缓存的作用

Yelena_Nic

2018-09-06

老师 执行lines=textFile(“file:///home/hadoop/data/page_views.dat”) 报错
Caused by: java.io.FileNotFoundException: File file::///home/hadoop/data/page_views.dat does not exist
是为什么呢?

我搭建的是集群。。我看网上说


关于在Spark集群中读取本地文件抛出找不到文件异常的问题
一般情况下,我们在本地ide里写好程序,打成jar包上传到集群取运行,有时候需要读取数据文件,这个时候需要注意,如果程序中读取的是本地文件,那么,要在所有的节点都有这个数据文件,只在master中有这个数据文件时执行程序时一直报找不到文件
解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。
解决方式2:直接将数据文件上传到hdfs,达到数据共享。(强烈推荐,比格更高更专业)

是这样吗???

写回答

2回答

Michael_PK

2018-09-06

你说的是对的

0
0

Michael_PK

2018-09-06

99.9%都是操作HDFS 的数据的,本地file 的方式测试用

0
4
Michael_PK
回复
Yelena_Nic
那你直接把那个完整路径考出来,在HDFS命令上执行下看看到底是否存在
2018-09-07
共4条回复

Python3实战Spark大数据分析及调度

使用Python3对Spark应用程序进行开发调优,掌握Azkaban任务调度

1046 学习 · 434 问题

查看课程