请问有2017更新后的access.log吗,20161111里的数据容易有bug

来源:9-8 -数据清洗之日志解析

jeff没有时间简史

2019-01-27

写回答

2回答

慕先生3506992

2020-10-16

case e:Exception => Row(0) 改成下面的就好了
case e:Exception => Row("","",0L,0L,"","","","")

0
0

Michael_PK

2019-01-27

日志没有更新的,上课本地测试的数据是把全量的抽取了前多少条的记录数,并不是完整的记录数。生产上脏数据是非常正常的,做ETL的目的就是要过滤掉脏数据,需要自己代码做容错处理,不合格的记录就丢弃就行但是不能使得程序报错而停止

0
5
jeff没有时间简史
回复
Michael_PK
明白了
2019-01-27
共5条回复

以慕课网日志分析为例 进入大数据Spark SQL的世界

快速转型大数据:Hadoop,Hive,SparkSQL步步为赢

1644 学习 · 1129 问题

查看课程