请问逻辑回归里的损失函数是否可以理解为信息熵的一种?

来源:12-2 信息熵

软件工程小白菜

2019-06-01

在学习了此节信息熵的公式后,觉得很眼熟。

果然在逻辑回归中,损失函数有着同样的形式:cost = -ylogp - (1-y)log(1-p)

虽然这里的 p!=y,p为预测的概率,y为真值的标签,但请问这个公式是否与这节所学习的信息熵有关?

举一个例子,在一个二分类问题里,我们有两个样本,对应两个不同的类别标为0和1,让y=1,则1-y=0,那么假设现在标签1对应的p=1,那么此时整个cost=0。根据信息熵的规则,信息熵越低,数据越稳定,因为此时概率为1,所以数据稳定。由此我们是否可以断定这个损失函数就是信息熵的定义呢?

谢谢老师!

写回答

1回答

liuyubobobo

2019-06-02

大赞!:)


逻辑回归的损失函数的形态,对应在信息论中,有一个单独的名词——交叉熵。不过,不了解这个概念并不影响的。很多人,甚至是一线大厂或者顶级学府的大牛,也不一定了解这个概念:)


而实际上,逻辑回归的损失函数,也可以通过最大似然估计推导出来。不过由于这个课程是入门课程,我不想引入太多数学知识吓到大家,所以也没有做这个推导,而是直观地直接“引出”了逻辑函数的损失函数。

具体可以参考这里:

https://coding.imooc.com/learn/questiondetail/96383.html


这样看来,这些概念可以连接起来。因为最大似然是让分类成功的概率尽可能的大;同时,就对应了让熵尽量小:)


继续加油!:)

5
1
软件工程小白菜
非常感谢!
2019-06-02
共1条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5893 学习 · 2454 问题

查看课程