mlp中全连接层为什么使用relu而输出层使用softmax?

来源:7-1 多层感知器(MLP)

谢思阳

2020-02-28

老师您好,我看到mlp中全连接层使用relu,这是为什么呢?这是固定操作吗?全连接层使用relu而输出层使用softmax? 是不是relu会激活多个神经元而softmax是概率分布所以只会激活最大可能的输出神经元?

写回答

1回答

flare_zhao

2020-02-28

同学你好,

在mlp的内部结构中,很多时候会使用relu替代sigmoid,一个重要原因就是使用sigmoid,对模型求解的时候会存在梯度消失问题。其实mlp里面的损失函数并不是完成不变的,随着我们对模型认识的加深,会根据实际需要去调整和尝试不同的激活函数。

http://coding.imooc.com/learn/questiondetail/169447.html

关于很多时候使用relu,我在课程这里里有一个详细的答疑。

2/3.sofmax通常都是用在输出层的。中间层我们一般都希望只有一个输出结果作为当前神经元的输出。中间层的激活函数一般有:sigmoid relue leaky-rely tanh

补充:

在mlp中,新神经元的输出可以理解为,前面很多个神经元信号经过激活函数处理后的结果。这个激活函数是可以调整的,二分类任务,最后的激活函数使用sigmoid很适用,类似于逻辑回归。但如果是多分类,而且结果是多类别中的某一个(比如结果是4类中的一类,我们可以理解为这四个类别发生的概率之和为1),那我们可以使用softmax,通过这个激活函数运算,输出为每个类别可能的概率,最大的概率那个,就是本次预测的类别。

2
0

Python3入门人工智能 掌握机器学习+深度学习

人工智能基础全方位讲解,构建完整人工智能知识体系,带你入门AI

1946 学习 · 594 问题

查看课程