改进逻辑回归用于极度有偏数据

来源：10-4 F1 Score

慕运维9331189

2020-05-18

波波老师，你好，我想改进一下逻辑回归算法，使其更好地用于极度有偏的数据。我目前想到的只有加入惩罚因子这一种办法。
就是在损失函数里面加上系数，如果模型将少的一类误分为多的一类，那就在原来的基础上乘一个系数，放大这部分。

请问，还没有其他的一些思路。

写回答

1回答

liuyubobobo

2020-05-19

已采纳

增加惩罚因子是一种方式，但是惩罚因子怎样设计才是合理的，是挺复杂的一件事情，对此我没有深入研究过。

实际上，这种思路本身（在算法上做改造），是处理极度有偏数据的 hard 模式的方式。当然，每年其实都有这方面的新论文

更普遍的处理方式，其实是从数据方面入手，看看占比大的数据是否过采样了？占比小的数据是否欠采样了？当然，有一些领域的某些类别数据就是少，比如病人的数据，这也是为什么，在医学领域，病人数据很值钱的原因。甚至一些人，就靠某一个罕见病的病例在手上，发很多神级文章。。。

另外一个处理方式，就是度量方式，这也是在这一章，我们讲到极度有偏数据的时候，为什么要讲这么多测量方式的原因。对于极度有偏数据，如果在调参，或者算法选择上，使用诸如 f1 这种能够检测出极度有偏数据带来的统计陷阱的指标，将帮助我们选择出能更好解决极度有偏数据的模型。

继续加油！：）

Python3入门机器学习经典算法与应用

Python3+sklearn，兼顾原理、算法底层实现和框架使用。

5981 学习 · 2456 问题

相似问题

回答 1

回答 1

回答 1

回答 2

回答 1