关于spark-submit提交任务时配置

来源:7-34 项目打包并运行在YARN上

夜愿小夜

2022-01-11

看到老师配置时,对于–packages和–jars这两个有疑问:
疑问1、如果项目依赖了MySQL是不是在–packages加入依赖
疑问2、项目中依赖了hbase-client和hbase-server,是否可以通过–packages方式,而不是–jars方式(个人也觉得不妥,但弄不明白)
疑问3、–packages和–jars,前者对pom依赖,后者对jar依赖吧?具体打包上传运行时,要指定的内容不清晰。比如:

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.12</artifactId>
        </dependency>

为啥不被指定啊?也是项目的依赖啊。
一句话:对瘦包中–packages和–jars的使用,不够清晰。麻烦老师看到后讲解下哈!

写回答

1回答

Michael_PK

2022-01-12

packages是通过gav的方式去maven仓库拉取

其实jars的东西是可以用packages的方式来拉取的

但是有个问题:生产上的环境是没办法连到外网的,除非你们有自己的私服仓库,所以还是用jar的方式更佳

0
2
Michael_PK
回复
夜愿小夜
1)你看到的是结构化流中的没有streaming吗?结构化流基于的是spark-sql和spark-sql-kafka的依赖的。 2)生产上不建议使用package,因为要联网去中央仓库,否则必须要有本地司服才行。可以用jar或者把依赖的包打到jar里面
2022-01-16
共2条回复

Spark3实时处理-Streaming+StructuredStreaming实战

实战Spark3实时处理,掌握两套企业级处理方案

340 学习 · 238 问题

查看课程