数据清洗问题

来源:9-6 数据清洗之第一步原始日志解析

少帅521

2018-07-26

2016-11-10 00:01:02 - 813 183.162.52.7

2016-11-10 00:01:02 - 0 10.100.0.1

2016-11-10 00:01:02 http://www.imooc.com/code/1852 2345 117.35.88.11

如何在存储数据的时候把前2个不存储,就是把url等于-和traffic=0的过滤掉

写回答

2回答

慕粉0909169327

2018-09-02

我写了一个,不是特别优雅,但是经测试能用,供你参考 val rdd1 = access.map... rdd1.filter(line=>{ val words = line.split("\t") !(words(1) == "-" || words(2) == "0") }).coalesce(1,false).saveAsTextFile("file:///D:/scalatest/formatoutput")

2
0

少帅521

提问者

2018-07-26

我想知道如何在代码编写使用filter(),如何操作,老师

0
2
慕粉0909169327
我写了一个,不是特别优雅,但是经测试能用,供你参考 val rdd1 = access.map... rdd1.filter(line=>{ val words = line.split("\t") !(words(1) == "-" || words(2) == "0") }).coalesce(1,false).saveAsTextFile("file:///D:/scalatest/formatoutput")
2018-08-30
共2条回复

以慕课网日志分析为例 进入大数据Spark SQL的世界

快速转型大数据:Hadoop,Hive,SparkSQL步步为赢

1644 学习 · 1129 问题

查看课程