关于对清洗的数据分析的问题

来源：9-26 -统计作业运行在YARN上

small_925_ant

2017-08-14

清洗完后在hdfs上面，通过shell查看结构没有day字段，为什么代码里面还会 groupBy("day","city")？在shell里面就会报错

val df=spark.read.format("parquet").load("/logYarn/clean/day=20170511/part-00000-5be9bbaf-d602-476a-81c8-c211974f79a9.snappy.parquet")

scala> df.show

+--------------------+-------+-----+-------+---------------+----+-------------------+

+--------------------+-------+-----+-------+---------------+----+-------------------+

|http://www.imooc....| video| 4500| 304| 218.75.35.226| 浙江省|2017-05-11 14:09:14|

|http://www.imooc....| video|14623| 69| 202.96.134.133| 广东省|2017-05-11 15:25:05|

写回答

1回答

Michael_PK

2017-08-14

已采纳

你shell读取时直接指到clean，然后printschema就有day了，day是分区字段

以慕课网日志分析为例进入大数据Spark SQL的世界

快速转型大数据：Hadoop，Hive，SparkSQL步步为赢

1644 学习 · 1129 问题

相似问题

回答 1

回答 3

回答 1

回答 3

回答 1