老师,L1和L2正则化的适用的场景有什么区别
来源:8-10 L1, L2和弹性网络

慕粉2044486253
2019-02-26
1.就是L1和L2相比各自的优缺点是什么,L2可以优化求解使求解变得稳定和快速该如何理解?
2.关于特征的选择的比较,L1和集成算法中得出的特征重要性,它们各自的特征选择方式有什么区别和联系,存不存在一种大部分情况下均优于其他算法的特征选择算法?
写回答
1回答
-
首先,在机器学习领域,不管是什么算法,都不存在一种算法绝对由于另一种算法。否则,我们也就不需要学习这么多算法了。请回顾“没有免费的午餐”定理。并且参考这些问答:
https://coding.imooc.com/learn/questiondetail/43808.html
http://coding.imooc.com/learn/questiondetail/42693.html
具体到L1和L2。
L1可以用于做特征选择,但是L2不可以。因为L1的结果更趋向于将theta置为0;
而正由于L1会倾向于让某些theta为0,所以,仅仅从优化函数的角度,他倾向于忽视某些特征,从而不一定达到全局最优;而L2则会充分考虑每一个特征值,更容易达到全局更优:)
另一种理解方式,则是L2将得到一个连续可导的函数,而L1不是。所以通过梯度下降法,更容易顺着梯度下降的方向,获得全局更优解:)
继续加油!:)
012019-02-26
相似问题