关于偏置值
来源:7-17 LSTM单元内部结构实现
紫梦沁香
2021-08-05
这里x.matmul(ix) + h.matmul(ih)结果是一个(batch_size,num_lstm_nodes[0])的矩阵
为什么bias_size不能是给一个batch做偏置呢,也就是bias_size=[batch_size,1]
这bias_size=[batch_size,1]和bias_size=[1,num_lstm_nodes[0]]在几何上的意义有什么区别呢?
写回答
1回答
-
参数的size,永远不可能与batch_size有关。因为batch size是每次训练数据的个数,是可以变化的,而在inference的时候是单样本的,这个时候如果参数与batch-size有关,那么你要用哪一个值呢?
num_lstm_nodes[0]是lstm的维度,lstm的内部,你可以理解成有好几个全连接层,这些全连接层的维度全都是num_lstm_nodes[0]. 这个bias是给全连接层的输出的每个维度都加一个独特的bias,这就是它的意义。
00
相似问题
X与W内积相加,为啥不把1也算上?
回答 2
关于eval()函数
回答 1