请问逻辑回归里的损失函数是否可以理解为信息熵的一种?
来源:12-2 信息熵

软件工程小白菜
2019-06-01
在学习了此节信息熵的公式后,觉得很眼熟。
果然在逻辑回归中,损失函数有着同样的形式:cost = -ylogp - (1-y)log(1-p)
虽然这里的 p!=y,p为预测的概率,y为真值的标签,但请问这个公式是否与这节所学习的信息熵有关?
举一个例子,在一个二分类问题里,我们有两个样本,对应两个不同的类别标为0和1,让y=1,则1-y=0,那么假设现在标签1对应的p=1,那么此时整个cost=0。根据信息熵的规则,信息熵越低,数据越稳定,因为此时概率为1,所以数据稳定。由此我们是否可以断定这个损失函数就是信息熵的定义呢?
谢谢老师!
写回答
1回答
-
大赞!:)
逻辑回归的损失函数的形态,对应在信息论中,有一个单独的名词——交叉熵。不过,不了解这个概念并不影响的。很多人,甚至是一线大厂或者顶级学府的大牛,也不一定了解这个概念:)
而实际上,逻辑回归的损失函数,也可以通过最大似然估计推导出来。不过由于这个课程是入门课程,我不想引入太多数学知识吓到大家,所以也没有做这个推导,而是直观地直接“引出”了逻辑函数的损失函数。
具体可以参考这里:
https://coding.imooc.com/learn/questiondetail/96383.html
这样看来,这些概念可以连接起来。因为最大似然是让分类成功的概率尽可能的大;同时,就对应了让熵尽量小:)
继续加油!:)
512019-06-02
相似问题