in

Visualizando la regularización y las normas L1 y L2

Visualizando la regularización y las normas L1 y L2

¿Por qué minimizar las normas induce la regularización?

Chiara Campagnola

23 de oct de 2020·5 min de lectura

Imagen del autor

Si ha tomado una clase de introducción al aprendizaje automático, ciertamente se ha encontrado con el problema del sobreajuste y ha sido introducido al concepto de regularización y norma. A menudo veo que esto se discute simplemente al mirar las fórmulas, así que pensé que trataría de dar una mejor idea de por qué exactamente minimizar la norma induce la regularización, y cómo L1 y L2 difieren entre sí, usando algunos ejemplos visuales.

Conocimientos previos

  • Regresión lineal
  • Descenso de gradiente
  • Alguna comprensión del sobreajuste y la regularización

Tópicos cubiertos

  • ¿Por qué minimizar la norma induce a la regularización?
  • ¿Cuál es la diferencia entre la norma L1 y la norma L2?

Resumen de regularización

Utilizando el ejemplo de regresión lineal, nuestra pérdida viene dada por el error cuadrático medio (MSE):

y nuestro objetivo es minimizar esta pérdida:

Para prmisobreajuste de ventilación, queremos agregar un sesgo hacia funciones menos complejas. Es decir, dadas dos funciones que pueden ajustarse razonablemente bien a nuestros datos, preferimos la más simple. Hacemos esto agregando un término de regularización, generalmente la norma L1 o la norma L2 al cuadrado:

Entonces, por ejemplo, agregando la norma L2 al cuadrado a la pérdida y minimizando, obtenemos la regresión de cresta:

donde λ es el coeficiente de regularización que determina cuánta regularización queremos.

¿Por qué minimizar la norma induce a la regularización?

Minimizar la norma fomenta que la función sea menos “compleja”. Matemáticamente, podemos ver que tanto la norma L1 como la L2 son medidas de la magnitud de los pesos: la suma de los valores absolutos en el caso de la norma L1 y la suma de los valores al cuadrado de la norma L2. Entonces, los pesos más grandes dan una norma más grande. Esto significa que, en pocas palabras, minimizar la norma fomenta que los pesos sean pequeños, lo que a su vez da funciones «más simples».

Visualicemos esto con un ejemplo. Supongamos que obtenemos algunos datos que se ven así:

Imagen del autor

¿Qué función debemos elegir para adaptarnos a estos datos? Hay muchas opciones, aquí hay tres ejemplos:

Imagen del autor

Aquí tenemos un ajuste de polinomio de segundo grado y dos polinomios de octavo grado diferentes, dados por las siguientes ecuaciones:

Las dos primeras (que son funciones “más simples”) probablemente se generalizarán mejor a nuevos datos, mientras que la tercera (una función más compleja) claramente sobreajusta los datos de entrenamiento. ¿Cómo se refleja esta complejidad en la norma?

Imagen del autor

Como podemos ver, línea [c] tiene un error cuadrático medio de 0, pero sus normas son bastante altas. Líneas [a] y [b], en cambio, tienen un MSE ligeramente más alto pero sus normas son mucho más bajas:

  • Línea [a] tiene normas más bajas porque tiene significativamente menos parámetros en comparación con [c]
  • Línea [b] tiene normas más bajas porque a pesar de tener el mismo número de parámetros, todos son mucho más pequeños que [c]

De esto podemos concluir que al agregar la norma L1 o L2 a nuestro objetivo de minimización, podemos fomentar funciones más simples con pesos más bajos, lo que tendrá un efecto de regularización y ayudará a nuestro modelo a generalizar mejor en nuevos datos.

¿Cuál es la diferencia entre la norma L1 y la norma L2?

Ya hemos visto que para reducir la complejidad de una función podemos eliminar algunos pesos por completo (poniéndolos a cero) o hacer que todos los pesos sean lo más pequeños posible, lo que nos lleva a la diferencia entre L1 y L2.

Para comprender cómo operan de manera diferente, echemos un vistazo a cómo cambian según el valor de los pesos.

Imagen del autor

A la izquierda tenemos una gráfica de la norma L1 y L2 para un peso dado w. A la derecha tenemos la gráfica correspondiente a la pendiente de las normas. Como podemos ver, tanto L1 como L2 aumentan al aumentar los valores absolutos de w. Sin embargo, mientras que la norma L1 aumenta a un ritmo constante, la norma L2 aumenta exponencialmente.

Esto es importante porque, como sabemos, al hacer un descenso gradual actualizaremos nuestros pesos en función de la derivada de la función de pérdida. Entonces, si hemos incluido una norma en nuestra función de pérdida, la derivada de la norma determinará cómo se actualizan los pesos.

Podemos ver que con el Norma L2 a medida que w se vuelve más pequeño, también lo hace la pendiente de la norma, lo que significa que las actualizaciones también serán cada vez más pequeñas. Cuando las ponderaciones estén cerca de 0, las actualizaciones se habrán vuelto tan pequeñas que serán casi insignificantes, por lo que es poco probable que las ponderaciones lleguen a ser 0.

Por otro lado, con el Norma L1 la pendiente es constante. Esto significa que a medida que w se hace más pequeño, las actualizaciones no cambian, por lo que seguimos obteniendo la misma «recompensa» por hacer que los pesos sean más pequeños. Por lo tanto, es mucho más probable que la norma L1 reduzca algunos pesos a 0.

Recordar:

  • los La norma L1 llevará algunos pesos a 0, induciendo escasez en los pesos. Esto puede ser beneficioso para eficiencia de la memoria o cuando selección de características es necesario (es decir, queremos seleccionar solo ciertos pesos).
  • los Norma L2 en lugar de eso reducir todos los pesos pero no todo el camino a 0. Esto es menos eficiente en memoria, pero puede ser útil si queremos / necesitamos retener todos los parámetros.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

DqWtJvYf43VkKyzuYNg6mb 1200 80

Cómo ver las películas de Harry Potter en orden

3122506

Muestras OBIEE