wide_deep实战问题系列2
来源:10-3 wide and deep网络结构与数学原理介绍

慕哥0458965
2019-01-27
老师,您好,实战过程中又遇到两个问题:
问题一:
老师,您好,刚才看了您的回答,如果我的海量数据在HDFS要转化成您课程中的csv格式,我是20个G的数据,用pandas转化的话,一次读进20G的数据,估计内存要爆炸,我还担心转化成您课程中的csv格式20个G数据是不是要花很久很久?
问题二:
我的原始特征libsvm数据是浮点型的,转化成libsvm如果还是浮点型的话,进入模型你报错,我强制把每一列特征都改成int就不报错了,老师,这个强制改int我可以用什么办法避免吗?是不是读取数据的时候哪里默认格式是int了?
写回答
1回答
-
你的数据在hdfs上你写一个mr,就是map reduce,并行处理转化 很快的20G。
你如果是按我的程度demo,那里读入的时候有_CSV_COLUMN_DEFAULTS, 你把float的地方 弄成0.0试一下。
012019-01-27
相似问题