解析清洗后的parquet文件,城市信息乱码,其他字段没问题

来源:9-11 -需求一统计功能实现

Unden

2018-08-11

http://img.mukewang.com/szimg/5b6e5b6e00010b4612280337.jpg

写回答

3回答

Unden

提问者

2018-08-11

问题已解决!

首先参考了https://coding.imooc.com/learn/questiondetail/69693.html

然后在服务器上执行

spark-submit \

--class com.spark.ETLStepTwoLocal \

--master local[*] \

--jars /opt/hive-1.1.0-cdh5.7.0/lib/mysql-connector-java-5.1.27-bin.jar,/opt/lib/ipdatabase-1.0.jar,/opt/lib/poi-3.14.jar,/opt/lib/poi-ooxml-schemas-3.14.jar,/opt/lib/poi-ooxml-3.14.jar,/opt/lib/xmlbeans-2.6.0.jar \

--conf spark.sql.warehouse.dir=hdfs://hadoop:9000/user/hive/warehouse \

/opt/lib/spark-sql-1.0.jar \

file:///root/data/access.log \

file:///root/data/step2_parquet \

file:///root/data/step2_json

其中关联的jar包中,xmlbeans-2.6.0.jar是单独下载的

下载地址:http://mvnrepository.com/artifact/org.apache.xmlbeans/xmlbeans/2.6.0

1
0

Michael_PK

2018-08-11

parquet文件不能直接查看的吧?

0
2
Michael_PK
回复
Unden
应该默认是u8的,机器是否有字符集设置,查下
2018-08-11
共2条回复

Michael_PK

2018-08-11

编辑器的原因不?你直接到Linux上执行下看看结果

0
1
Unden
数据清洗阶段,Windows环境下直接调用show方法,中文显示正常,但是代码打包放到linux虚拟机下执行,输出的json文件城市就乱码了
2018-08-11
共1条回复

以慕课网日志分析为例 进入大数据Spark SQL的世界

快速转型大数据:Hadoop,Hive,SparkSQL步步为赢

1644 学习 · 1129 问题

查看课程