老师每次load完data都直接进行操作,我经常要花很多时间弄清楚data是什么type

来源:2-4 实战分类模型之模型构建

慕码人3491233

2019-09-15

老师可以在这方面教一教如何speed up这个pre-possessing data的过程吗?比如各类data format要怎么应对,以及介绍一下常见的这些image,text,class是怎么存的

写回答

1回答

正十七

2019-09-19

其实这些数据也不难,重点在统一性:

对于图像,可能大小不一,这个时候,需要把他们缩放到同样的大小,然后读取进来,每张图像基本都是[width, height, channels]的矩阵,然后组合起来就是[num_example, width, height, channels]的四维矩阵。

对于文本,难度在于长度不一,需要做padding和截断。每个文本都用这两个操作做成同样长度的,然后词语字符串变为id,这样你的数据就是「num_example, text_length]的矩阵

class一般有两种存法,第一是类别标记,比如每个类别值都是一个整数,那么此时class就是长度为num_examples的int向量。要么就是给class做one-hot编码,这样它就是[num_examples, class_num]的矩阵,其中矩阵的每一行代表的是样本属于哪一类,比如[0, 0, 1, 0, 0],就标明数据一共五个类,本样本属于类别2。

1
0

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程