老师每次load完data都直接进行操作，我经常要花很多时间弄清楚data是什么type

来源：2-4 实战分类模型之模型构建

慕码人3491233

2019-09-15

老师可以在这方面教一教如何speed up这个pre-possessing data的过程吗？比如各类data format要怎么应对，以及介绍一下常见的这些image，text，class是怎么存的

写回答

1回答

正十七

2019-09-19

已采纳

其实这些数据也不难，重点在统一性：

对于图像，可能大小不一，这个时候，需要把他们缩放到同样的大小，然后读取进来，每张图像基本都是[width, height, channels]的矩阵，然后组合起来就是[num_example, width, height, channels]的四维矩阵。

对于文本，难度在于长度不一，需要做padding和截断。每个文本都用这两个操作做成同样长度的，然后词语字符串变为id，这样你的数据就是「num_example, text_length]的矩阵

class一般有两种存法，第一是类别标记，比如每个类别值都是一个整数，那么此时class就是长度为num_examples的int向量。要么就是给class做one-hot编码，这样它就是[num_examples, class_num]的矩阵，其中矩阵的每一行代表的是样本属于哪一类，比如[0, 0, 1, 0, 0]，就标明数据一共五个类，本样本属于类别2。

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程

相似问题

为什么需要对dataset 做 dataset.repeat(epochs).batch(batch_size)操作？

回答 1

number_examples和batch_size之间有什么关系吗？

回答 1

老师我运行那个第二章第一个程序的第二段出现下面的问题时咋回事啊

回答 17

为什么每次的训练结果都不一样呢？

回答 2

请问ModelCheckpoint保存的模型应该如何正确使用

回答 1

打开慕课网App查看更多内容