关于偏置值

来源:7-17 LSTM单元内部结构实现

紫梦沁香

2021-08-05

这里x.matmul(ix) + h.matmul(ih)结果是一个(batch_size,num_lstm_nodes[0])的矩阵
为什么bias_size不能是给一个batch做偏置呢,也就是bias_size=[batch_size,1]
这bias_size=[batch_size,1]和bias_size=[1,num_lstm_nodes[0]]在几何上的意义有什么区别呢?
图片描述

写回答

1回答

正十七

2021-08-07

  1. 参数的size,永远不可能与batch_size有关。因为batch size是每次训练数据的个数,是可以变化的,而在inference的时候是单样本的,这个时候如果参数与batch-size有关,那么你要用哪一个值呢?


  1. num_lstm_nodes[0]是lstm的维度,lstm的内部,你可以理解成有好几个全连接层,这些全连接层的维度全都是num_lstm_nodes[0]. 这个bias是给全连接层的输出的每个维度都加一个独特的bias,这就是它的意义。

0
0

深度学习之神经网络(CNN/RNN/GAN)算法原理+实战

深度学习算法工程师必学,深入理解深度学习核心算法CNN RNN GAN

2617 学习 · 935 问题

查看课程