改进逻辑回归用于极度有偏数据

来源:10-4 F1 Score

慕运维9331189

2020-05-18

波波老师,你好,我想改进一下逻辑回归算法,使其更好地用于极度有偏的数据。我目前想到的只有加入惩罚因子这一种办法。
就是在损失函数里面加上系数,如果模型将少的一类误分为多的一类,那就在原来的基础上乘一个系数,放大这部分。
http://img.mukewang.com/szimg/5ec2a6eb08007e1e05470729.jpg
请问,还没有其他的一些思路。

写回答

1回答

liuyubobobo

2020-05-19

增加惩罚因子是一种方式,但是惩罚因子怎样设计才是合理的,是挺复杂的一件事情,对此我没有深入研究过。


实际上,这种思路本身(在算法上做改造),是处理极度有偏数据的 hard 模式的方式。当然,每年其实都有这方面的新论文


更普遍的处理方式,其实是从数据方面入手,看看占比大的数据是否过采样了?占比小的数据是否欠采样了?当然,有一些领域的某些类别数据就是少,比如病人的数据,这也是为什么,在医学领域,病人数据很值钱的原因。甚至一些人,就靠某一个罕见病的病例在手上,发很多神级文章。。。


另外一个处理方式,就是度量方式,这也是在这一章,我们讲到极度有偏数据的时候,为什么要讲这么多测量方式的原因。对于极度有偏数据,如果在调参,或者算法选择上,使用诸如 f1 这种能够检测出极度有偏数据带来的统计陷阱的指标,将帮助我们选择出能更好解决极度有偏数据的模型。


继续加油!:)

0
0

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5858 学习 · 2451 问题

查看课程