in

Ciencia de datos simplificada, parte 5: modelos de regresión multivariante

Ciencia de datos simplificada, parte 5: modelos de regresión multivariante

Pradeep Menon

5 de agosto de 2017·8 min de lectura

En el último artículo de esta serie, comentamos la historia de Fernando. Un científico de datos que quiere comprar un automóvil. Utiliza el modelo de regresión lineal simple para estimar el precio del automóvil.

1*nrt8HIKU6CKto9F74ZjwwQ
1*YuFr0H7derrXFRFJjCa2QQ
  • Precisión: utilizando el coeficiente de determinación también conocido como R-cuadrado

El concepto:

Los modelos de regresión lineal proporcionan un enfoque simple hacia el aprendizaje supervisado. Son simples pero efectivos.

1*664wMZo Y1UViLERmVcmzA
  • X es la primera variable independiente, es decir, la variable controlable. Es la primera entrada.
  • m1 es la pendiente de x1. Determina cuál será el ángulo de la línea (x).
  • z es la segunda variable independiente, es decir, la variable controlable. Es la segunda entrada.
  • m2 es la pendiente de z. Determina cuál será el ángulo de la línea (z).
  • C es la intersección. Una constante que determina el valor de y cuando x y z son 0.

Formulación del modelo:

Ahora que estamos familiarizados con el concepto de modelo de regresión lineal multivariante, volvamos a Fernando.

1*jg356nnyv24Dkc5 jASXTw
  • fuelType: tipo de combustible utilizado por el automóvil.
  • nDoor: número de puertas.
  • engineSize: tamaño del motor del coche.
  • precio: el precio del coche.
  • PeakRPM: revoluciones por minuto alrededor de la salida de potencia máxima.
  • longitud: longitud del coche.
  • ancho: ancho del coche.
  • altura: altura del coche.

Construcción del modelo:

Fernando ingresa estos datos en su paquete estadístico. El paquete calcula los parámetros. El resultado es el siguiente:

Interpretación del modelo:

La interpretación del modelo multivariado proporciona el impacto de cada variable independiente sobre la variable dependiente (objetivo).

  • Caballo de potencia: con todos los demás predictores constantes, si la potencia de caballo aumenta en una unidad, el precio promedio aumenta por $ 43.79.
  • RPM pico: si todos los demás predictores se mantienen constantes, si el RPM pico aumenta en una unidad, el precio promedio aumenta por $ 1.52.
  • Longitud: si todos los demás predictores se mantienen constantes, si la longitud aumenta en una unidad, el precio medio disminuye por $ 37,91 (la longitud tiene un coeficiente -ve).
  • Ancho: con todos los demás predictores constantes, si el ancho se incrementa en una unidad, el precio promedio aumenta por $ 908.12
  • Altura: si todos los demás predictores se mantienen constantes, si la altura aumenta en una unidad, el precio medio aumenta por $ 364.33

Evaluación del modelo

El modelo está construido. Se interpreta. ¿Son importantes todos los coeficientes? ¿Cuáles son más importantes? ¿Cuánta variación explica el modelo?

1*uU8OrmvDMY4hduEJLdod w

  • valor t: Excepto por la longitud, el valor t para todos los coeficientes está significativamente por encima de cero. Para la longitud, el t-stat es -0,70. Implica que la longitud del automóvil puede no tener un impacto en el precio promedio.
  • valor p: La probabilidad de observar el valor p puramente por casualidad es bastante baja para todas las variables excepto para la longitud. El valor p para la longitud es 0,4854. Esto implica que la probabilidad de que el t-stat observado sea por azar es del 48,54%. Este número es bastante alto.
  • La longitud del automóvil no tiene un impacto significativo en el precio.
  • El modelo explica el 81,1% de la variación de los datos.

Conclusión:

Fernando tiene un modelo mejor ahora. Sin embargo, está perplejo. Sabe que la longitud del automóvil no afecta el precio.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

duFNXTrRmmyhqHPC88gS2V 1200 80

Guía de Pokémon Go: todo lo que necesitas para convertirte en un entrenador maestro y atraparlos a todos

¿Qué es una base de datos autónoma?