关于对清洗的数据分析的问题

来源:9-26 -统计作业运行在YARN上

small_925_ant

2017-08-14

清洗完后在hdfs上面,通过shell查看结构  没有day字段,为什么代码里面还会 groupBy("day","city")?在shell里面就会报错

val df=spark.read.format("parquet").load("/logYarn/clean/day=20170511/part-00000-5be9bbaf-d602-476a-81c8-c211974f79a9.snappy.parquet")

scala> df.show

+--------------------+-------+-----+-------+---------------+----+-------------------+

|                 url|cmsType|cmsId|traffic|             ip|city|               time|

+--------------------+-------+-----+-------+---------------+----+-------------------+

|http://www.imooc....|  video| 4500|    304|  218.75.35.226| 浙江省|2017-05-11 14:09:14|

|http://www.imooc....|  video|14623|     69| 202.96.134.133| 广东省|2017-05-11 15:25:05|


写回答

1回答

Michael_PK

2017-08-14

你shell读取时直接指到clean,然后printschema就有day了,day是分区字段

0
0

以慕课网日志分析为例 进入大数据Spark SQL的世界

快速转型大数据:Hadoop,Hive,SparkSQL步步为赢

1644 学习 · 1129 问题

查看课程