改进逻辑回归用于极度有偏数据
来源:10-4 F1 Score
慕运维9331189
2020-05-18
波波老师,你好,我想改进一下逻辑回归算法,使其更好地用于极度有偏的数据。我目前想到的只有加入惩罚因子这一种办法。
就是在损失函数里面加上系数,如果模型将少的一类误分为多的一类,那就在原来的基础上乘一个系数,放大这部分。
请问,还没有其他的一些思路。
写回答
1回答
-
增加惩罚因子是一种方式,但是惩罚因子怎样设计才是合理的,是挺复杂的一件事情,对此我没有深入研究过。
实际上,这种思路本身(在算法上做改造),是处理极度有偏数据的 hard 模式的方式。当然,每年其实都有这方面的新论文
更普遍的处理方式,其实是从数据方面入手,看看占比大的数据是否过采样了?占比小的数据是否欠采样了?当然,有一些领域的某些类别数据就是少,比如病人的数据,这也是为什么,在医学领域,病人数据很值钱的原因。甚至一些人,就靠某一个罕见病的病例在手上,发很多神级文章。。。
另外一个处理方式,就是度量方式,这也是在这一章,我们讲到极度有偏数据的时候,为什么要讲这么多测量方式的原因。对于极度有偏数据,如果在调参,或者算法选择上,使用诸如 f1 这种能够检测出极度有偏数据带来的统计陷阱的指标,将帮助我们选择出能更好解决极度有偏数据的模型。
继续加油!:)
00
相似问题