wide_deep实战问题系列2

来源:10-3 wide and deep网络结构与数学原理介绍

慕哥0458965

2019-01-27

老师,您好,实战过程中又遇到两个问题:
问题一:
老师,您好,刚才看了您的回答,如果我的海量数据在HDFS要转化成您课程中的csv格式,我是20个G的数据,用pandas转化的话,一次读进20G的数据,估计内存要爆炸,我还担心转化成您课程中的csv格式20个G数据是不是要花很久很久?
问题二:
我的原始特征libsvm数据是浮点型的,转化成libsvm如果还是浮点型的话,进入模型你报错,我强制把每一列特征都改成int就不报错了,老师,这个强制改int我可以用什么办法避免吗?是不是读取数据的时候哪里默认格式是int了?

写回答

1回答

David

2019-01-27

  1. 你的数据在hdfs上你写一个mr,就是map reduce,并行处理转化 很快的20G。

  2. 你如果是按我的程度demo,那里读入的时候有_CSV_COLUMN_DEFAULTS, 你把float的地方 弄成0.0试一下。


0
1
慕哥0458965
谢谢老师,我试一下~
2019-01-27
共1条回复

个性化推荐算法实战(可用于毕设) BAT大牛亲授

让你掌握一套完整的,能落地的个性化推荐算法体系。可用于毕设。

839 学习 · 253 问题

查看课程