in

Una guía para principiantes sobre el análisis de regresión en el aprendizaje automático

Una guía para principiantes sobre el análisis de regresión en el aprendizaje automático

Análisis de regresión explicado con ejemplos, ilustraciones, animaciones y hojas de trucos.

Aqeel Anwar

10 de abr·11 min de lectura

Contexto:

Para comprender la motivación detrás de la regresión, consideremos el siguiente ejemplo simple. El siguiente diagrama de dispersión muestra el número de graduados universitarios en los EE. UU. Desde el año 2001 al 2012.

Imagen del autor

Ahora, según los datos disponibles, ¿qué pasa si alguien le pregunta cuántos C¿Habrá graduados con maestría en el año 2018? Se puede observar que el número de graduados universitarios con maestrías aumenta casi linealmente con el año. Entonces, mediante un simple análisis visual, podemos obtener una estimación aproximada de ese número entre 2.0 y 2.1 millones. Veamos los números reales. El siguiente gráfico traza la misma variable desde el año 2001 hasta el año 2018. Se puede ver que nuestro número predicho estaba en el estadio del valor real.

1*g0TgDvCUAyNDMsmW7bRNfQ

Imagen del autor

Dado que era un problema más simple (ajustar una línea a los datos), nuestra mente podía hacerlo fácilmente. Este proceso de ajustar una función a un conjunto de puntos de datos se conoce como análisis de regresión.

¿Qué es el análisis de regresión?

El análisis de regresión es el proceso de estimar la relación entre una variable dependiente y variables independientes. En palabras más simples, significa ajustar una función de una familia seleccionada de funciones a los datos muestreados bajo alguna función de error. El análisis de regresión es una de las herramientas más básicas en el área del aprendizaje automático que se utiliza para la predicción. Al usar la regresión, ajusta una función a los datos disponibles e intenta predecir el resultado para el futuro o los puntos de datos retenidos. Este ajuste de función tiene dos propósitos.

  1. Puede estimar los datos faltantes dentro de su rango de datos (interpolación)
  2. Puede estimar datos futuros fuera de su rango de datos (extrapolación)

Algunos ejemplos del mundo real para el análisis de regresión incluyen predecir el precio de una casa dadas las características de la casa, predecir el impacto de los puntajes SAT / GRE en las admisiones universitarias, predecir las ventas según los parámetros de entrada, predecir el clima, etc.

Consideremos el ejemplo anterior de los graduados universitarios.

  1. Interpolación: Supongamos que tenemos acceso a datos algo escasos en los que conocemos el número de graduados universitarios cada 4 años, como se muestra en el diagrama de dispersión a continuación.

Imagen del autor

Queremos estimar el número de graduados universitarios para todos los años que faltan en el medio. Podemos hacer esto ajustando una línea a los puntos de datos disponibles limitados. Este proceso se llama interpolación.

1*4XIWpLQXdZgiUXsWtHuibg

Figura 4: Imagen del autor

Extrapolación: Supongamos que tenemos acceso a datos limitados desde el año 2001 hasta el año 2012, y queremos predecir el número de graduados universitarios del año 2013 al 2018.

Imagen del autor

Se puede observar que el número de graduados universitarios con maestrías aumenta casi linealmente con el año. Por lo tanto, tiene sentido ajustar una línea al conjunto de datos. Usando los 12 puntos para ajustar una línea, y luego probar la predicción de esta línea en los 6 puntos futuros, se puede ver que la predicción es muy cercana.

1*ee S3W1O36MfwXBYO uH5Q

Extrapolación – Predicción de valores futuros invisibles – Imagen del autor

Matemáticamente hablando

1*tW8bZzZNt17N0lD0P z7Vg

Tipos de análisis de regresión

Ahora hablemos de las diferentes formas en que podemos realizar la regresión. Según la familia de funciones (f_beta) y la función de pérdida (l) utilizada, podemos clasificar la regresión en las siguientes categorías.

1. Regresión lineal

En la regresión lineal, el objetivo es ajustar un hiperplano (una línea para puntos de datos 2D) minimizando la suma del error cuadrático medio para cada punto de datos.

Matemáticamente hablando, la regresión lineal resuelve el siguiente problema

1*j3LRR2Z g r1vZgTqnmPAw

Por lo tanto, necesitamos encontrar 2 variables denotadas por beta que parametricen la función lineal f (.). Se puede ver un ejemplo de regresión lineal en la figura 4 anterior, donde P = 5. La figura también muestra la función lineal ajustada con beta_0 = -90.798 y beta_1 = 0.046

2. Regresión polinomial

La regresión lineal supone que la relación entre las variables dependientes (y) e independientes (x) es lineal. No se ajusta a los puntos de datos cuando la relación entre ellos no es lineal. La regresión polinomial expande las capacidades de ajuste de la regresión lineal al ajustar un polinomio de grado m a los puntos de datos. Cuanto más rica sea la función considerada, mejores (en general) sus capacidades de ajuste. Matemáticamente hablando, la regresión polinomial resuelve el siguiente problema.

1*rkiqZeZnIoVIifam5y FEQ

La formulación matemática de la regresión polinomial – Imagen del autor

Por lo tanto, necesitamos encontrar (m + 1) variables denotadas por beta_0,…, beta_m. Puede verse que la regresión lineal es un caso especial de regresión polinomial con grado 2.

Considere el siguiente conjunto de puntos de datos trazados como un diagrama de dispersión. Si usamos la regresión lineal, obtenemos un ajuste que claramente falla en estimar los puntos de datos. Pero si usamos la regresión polinomial con grado 6, obtenemos un ajuste mucho mejor como se muestra a continuación

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

sM6jQHKqVCAKk2pmdbiiJR 1200 80

Computadora portátil vs computadora de escritorio: ¿cuál debería comprar?

Cifrado transparente de datos Preguntas frecuentes