关于对清洗的数据分析的问题
来源:9-26 -统计作业运行在YARN上
small_925_ant
2017-08-14
清洗完后在hdfs上面,通过shell查看结构 没有day字段,为什么代码里面还会 groupBy("day","city")?在shell里面就会报错
val df=spark.read.format("parquet").load("/logYarn/clean/day=20170511/part-00000-5be9bbaf-d602-476a-81c8-c211974f79a9.snappy.parquet")
scala> df.show
+--------------------+-------+-----+-------+---------------+----+-------------------+
| url|cmsType|cmsId|traffic| ip|city| time|
+--------------------+-------+-----+-------+---------------+----+-------------------+
|http://www.imooc....| video| 4500| 304| 218.75.35.226| 浙江省|2017-05-11 14:09:14|
|http://www.imooc....| video|14623| 69| 202.96.134.133| 广东省|2017-05-11 15:25:05|
1回答
-
你shell读取时直接指到clean,然后printschema就有day了,day是分区字段
00
相似问题