解析清洗后的parquet文件，城市信息乱码，其他字段没问题

来源：9-11 -需求一统计功能实现

Unden

2018-08-11

写回答

3回答

Unden

提问者

2018-08-11

问题已解决！

首先参考了https://coding.imooc.com/learn/questiondetail/69693.html

然后在服务器上执行

spark-submit \

--class com.spark.ETLStepTwoLocal \

--master local[*] \

--jars /opt/hive-1.1.0-cdh5.7.0/lib/mysql-connector-java-5.1.27-bin.jar,/opt/lib/ipdatabase-1.0.jar,/opt/lib/poi-3.14.jar,/opt/lib/poi-ooxml-schemas-3.14.jar,/opt/lib/poi-ooxml-3.14.jar,/opt/lib/xmlbeans-2.6.0.jar \

--conf spark.sql.warehouse.dir=hdfs://hadoop:9000/user/hive/warehouse \

/opt/lib/spark-sql-1.0.jar \

file:///root/data/access.log \

file:///root/data/step2_parquet \

file:///root/data/step2_json

其中关联的jar包中，xmlbeans-2.6.0.jar是单独下载的

下载地址：http://mvnrepository.com/artifact/org.apache.xmlbeans/xmlbeans/2.6.0

Michael_PK

2018-08-11

parquet文件不能直接查看的吧？

Michael_PK

Unden

应该默认是u8的，机器是否有字符集设置，查下

2018-08-11

共2条回复

Michael_PK

2018-08-11

编辑器的原因不？你直接到Linux上执行下看看结果

Unden

数据清洗阶段，Windows环境下直接调用show方法，中文显示正常，但是代码打包放到linux虚拟机下执行，输出的json文件城市就乱码了

2018-08-11

共1条回复

以慕课网日志分析为例进入大数据Spark SQL的世界

快速转型大数据：Hadoop，Hive，SparkSQL步步为赢

1644 学习 · 1129 问题

查看课程

相似问题

ip解析城市

回答 1

SQL城市名字都是问号

回答 1

.snappy.parquet is not a Parquet file (too small)

回答 1

城市乱码

回答 2

在windows环境下，IDEA写json文件报错，麻烦帮忙看看，谢谢！

回答 1

打开慕课网App查看更多内容