Regularization

deep-learning deep-learning regularization dropout l1 l2 1 min read

L1, L2, Elastic Net, Dropout, Early Stopping and other regularization techniques

Lasso (L1)

Shrinks least important features’ coefficients to zero (built-in feature selection)
$\mathcal{L} = \sum_{i=0}^{N}(y_i - \sum_{j=0}^{M}x_{ij}w_j)^2 + \lambda |\sum_{j=0}^{M}w_j|$

$\mathcal{L} = \sum_{i=0}^{N}(y_i - \sum_{j=0}^{M}x_{ij}w_j)^2 + \lambda_1 |\sum_{j=0}^{M}w_j| + \lambda_2 \sum_{j=0}^{M}w_j^2$

During inference: keep dropout active, run multiple forward passes to get uncertainty estimates (approximate probability distribution).

How L1 helps in feature selection? The derivative of $

$ is $\pm 1$ (or subgradient $[-1,1]$ at $w=0$). The constant push towards zero means weights stay exactly at zero if $

\frac{\partial L}{\partial w}

< \lambda$.

Dropout for uncertainty estimation? Keep dropout active at inference, run ~100 forward passes. Mean = prediction, variance = uncertainty.