in

Modelado estadístico: la guía pragmática

0IfqQ3eZcgMc9jH5B

Modelado estadístico: la guía pragmática

Marcos Silva

19 de oct de 2019·10 min de lectura

Parte 2: Interpretación de modelos de aprendizaje automático

Continuando con nuestra serie de publicaciones sobre cómo interpretar los algoritmos y predicciones de Machine Learning.

Parte 0 (opcional): ¿Qué es la ciencia de datos y el científico de datos?
Parte 1 – Introdtucción a la interpretabilidad
Parte 1.5 (opcional): una breve historia de las estadísticas (puede ser útil para comprender esta publicación)
Parte 2 – (esta publicación) Interpretación de modelos de alto sesgo y baja varianza. Regresiones lineales.
Parte 3 – Interpretación de modelos de bajo sesgo y alta varianza.
Parte 4: ¿Es posible resolver el compromiso entre sesgo y varianza?
Parte 5 – Métodos locales de interpretabilidad.
Parte 6 – Métodos globales de interpretabilidad. ¡Usando Shapley para finalmente abrir la caja negra!

En esta publicación nos centraremos en la interpretación de modelos de alto sesgo y baja varianza, como explicamos en la publicación anterior, estos algoritmos son los más fáciles de interpretar así que asume varios prerrequisitos en los datos. Elijamos las regresiones lineales para representar este grupo de algoritmos. Si no tiene idea de qué son los modelos lineales, le recomendamos que consulte el artículo Breve historia de la estadística.

Todos los códigos para esta publicación están disponibles en Kaggle.

El propósito aquí no es explicar qué son estos modelos lineales o cómo funcionan, sino cómo interpretar sus parámetros y estimaciones, pero una breve introducción puede ser útil. Los modelos lineales pueden ser regresiones simples como OLS, pueden ser regresiones regulares como Lasso y Ridge,
Pueden ser modelos para clasificación como Regresiones Logísticas e incluso para series de tiempo como filtros ARIMA. Todos tienen en común el hecho de que tienen parámetros lineales, es decir, cuando estimamos los “pesos” de las variables son constantes para cualquier nivel. Curiosamente, una red neuronal también puede ser un modelo lineal si sus capas de activación son lineales (f (x) = x), y dicha red de una capa será similar a nuestra regresión lineal simple que usaremos aquí, pero increíblemente menos eficiente.

Creemos un mundo teórico en el que estemos interesados ​​en interpretar los efectos de diversas variables sobre los ingresos de las personas. En nuestro mundo hipotético tenemos un salario mínimo de $ 1000 y cada año de educación aumenta en promedio $ 500 en salario mensual. Debido a que nuestro mundo es estocástico (no determinista), tenemos aleatoriedad.

Al ejecutar un modelo de regresión, obtenemos la línea que produce el menor error posible: yhat = x * 496 + 1084. Es decir, el modelo fue capaz de «comprender» la realidad que creamos y estimó que el coeficiente de pendiente es ~ 496 ( muy alrededor de $ 500 que se creó) y la intersección de ~ 1084 y la interpretación en este caso es bastante sencilla. Identificó el salario mínimo (cuando la educación es igual a cero) y cuando un año de educación altera los ingresos de las personas, $ 500.

Pero este caso es muy sencillo y muy alejado de la realidad. Por cierto, este caso es muy similar al modelo creado por Galton en el siglo XIX, el coeficiente de correlación ‘r’ es el mismo que R² (solo al cuadrado). En el mundo real tenemos muchas variables que explican los salarios, así que insertemos más variables en este modelo.

En nuestro «mundo v2» tendremos el siguiente comportamiento, más parecido a la realidad:

Los salarios se explican por tres componentes de la siguiente manera:
– Grit = Variable aleatoria que va de 0 a 16.
– Educación = Variable aleatoria de 0 a 16 + parte del esfuerzo ya que el esfuerzo afecta cuánto te educas.
– Experimento = variable aleatoria de 0 a 25.

PS = Arena* 200 + experiencia * 200 + educación* 300 + parte aleatoria

Una forma de ver estas relaciones entre variables es a través de un gráfico de correlación en un mapa de calor:

Mirando la primera columna, pensaríamos que la variable más importante es Grit / Claw porque su correlación con Salario es la más alta, y diríamos que Experiencia y educación tienen efectos casi iguales.

Una forma alternativa de mostrar el comportamiento entre las variables que prefiero pero que aún no puedo hacer popular es a través de gráficos, donde cada nodo es una variable y la intensidad del color de los bordes es la «fuerza» de sus correlaciones:

Podemos ver más claramente que Salario es la variable central, que Educación y Garra están correlacionados entre sí, por lo que al estimar la correlación entre Garra y Salario, posiblemente estemos captando parte del efecto de la educación, sobrestimando el efecto de garra y subestimando el efecto de la garra. educación. Decimos que la correlación está «contaminada».
¿Cómo resolverlo?

Correlaciones parciales

El gran truco para interpretar regresiones lineales es comprender cómo funcionan las correlaciones parciales. Si comprende esto profundamente, estará a mitad de camino para comenzar a hacer un análisis causal que es el tema de otra publicación. Para hacer esto, creemos un «lenguaje estadístico» con diagramas de Venn de la siguiente manera:

  • Cada círculo representa una variable.
  • El tamaño del círculo representa la varianza de esta variable;
  • Las intersecciones entre los círculos representan la covarianza de estas variables. Podemos interpretarlo como correlación sin pérdida de generalidad.

¿Cómo leemos esta representación? Básicamente, el salario tiene una variación que se explica por la educación y el valor, pero como la educación y el valor están correlacionados, explican el mismo tramo de variación, es decir, hay un recuento doble. Cuando usamos tales correlaciones parciales, básicamente lo que estamos haciendo es desechar este doble conteo y capturar solo correlaciones puras, que no están correlacionadas con ninguna otra variable del modelo. En ese caso jugaremos ese número 100 que se explica tanto por Grit como por Educ y dejaríamos solo 200 (Grit -> $) y 300 (Educ -> $). Y eso es exactamente lo que hacen las regresiones lineales por nosotros:

Juguemos. Al retroceder sin la variable Educ o sin la variable Grit, notamos que capturaron el efecto de la otra, es decir, con el propósito de predecir salarios, eliminar las variables no perturbaría tanto ya que al estar correlacionadas, se captura parte del efecto. por la variable restante. Para interpretar los efectos, lo ideal es poner todas las variables que sean importantes, de lo contrario se contaminarán los efectos estimados. En el caso de la variable Exp (que se construyó sin correlación con las demás) la correlación parcial es muy similar a la correlación tradicional ya que no existen efectos conjuntos. Con diagramas de Venn:

Modelización estadística y sus interpretaciones.

Como hemos repetido varias veces, este modelo tiene muchos requisitos previos, así que comencemos a desglosarlos e interpretarlos.

Comportamientos no lineales.

Una de las hipótesis más fuertes es que el retorno de las variables (X) sobre los objetivos (y) tiene que ser constante, de ahí el nombre del modelo lineal (ya que los parámetros estimados son lineales). Pero, ¿y si el comportamiento no es exactamente lineal? ¿Tenemos que recurrir a otros modelos? La respuesta corta es no,
Podemos modelar el problema para comprender las no linealidades. Vayamos a los ejemplos:

Imaginemos que el rendimiento de la educación ya no es estable sobre el salario, que en realidad alcanza su punto máximo y luego comienza a disminuir. Es decir, no solo no aumenta para siempre, sino que la velocidad con la que aumenta disminuye hasta que retrocede. Ésta es una hipótesis muy aceptable y se puede observar con datos reales. Al estimar un modelo lineal de esta nueva realidad, tenemos un resultado bastante extraño:

No parece una buena opción, ¿verdad? Esto es muy común en la naturaleza de los problemas, tenemos efectos que se vuelven más fuertes o más débiles a lo largo de la variable y la forma en que lo manejamos es agregando la variable de educación dos veces, una parte lineal (original) y una parte cuadrática, por lo que una parte lineal El modelo puede comprender el comportamiento no lineal:

A medida que el modelo continúa estimando correlaciones parciales, para interpretar estas variables necesitamos considerar ambas partes de la educación simultáneamente, las partes lineal y cuadrática estimadas son: 648 y -32 cuando los datos reales eran 600 y -30. Así podemos, por ejemplo, calcular la educación que maximiza el salario tomando el máximo de la curva.

Modelos de elasticidad.

Otro caso muy común de efectos no lineales se da cuando las variables en lugar de tener un efecto nominal constante tienen un efecto porcentual constante. Un ejemplo sería estimar el efecto de la plantilla (X) en la producción de una panadería (y). Si solo hay un empleado, la productividad es alta.
Cuando contratas a uno más la producción aumenta mucho, pueden turnarse, mientras uno se encuentra reponiendo el stock, etc. A medida que agregamos más empleados, la productividad está cayendo y agregar el décimo empleado ya no es tan productivo sino que aumenta la producción. A esto lo llamamos un efecto marginalmente decreciente, y una forma de modelar este problema es aplicando el logaritmo natural (ln). Un empleado adicional cuando tiene 1 es un aumento del 100%, mientras que un empleado adicional cuando tiene 10 es solo un aumento del 10%.
Además de corregir este comportamiento de aumento porcentual, el registro ayuda a mitigar los efectos de las distribuciones asimétricas a la izquierda, los esquemas y, a menudo, transforma distribuciones como esta en una distribución muy parecida a una normal.

¿Cómo interpretamos esta nueva variable después de pasar la transformación logarítmica? Básicamente como un cambio porcentual en lugar de nominal. Vayamos a los ejemplos:

Cuando ejecutamos la regresión sobre el salario, suceden dos cosas. La primera es que R2 aumenta de 0.065 a 0.125 (¡el doble!), Lo que significa que nuestro modelo está en el camino correcto. Pero cuando miramos el valor estimado para educación vemos que pasó de 300 a 0,0062, ¿cómo interpretarlo? ¡Cambios porcentuales! La nueva interpretación será, un año más de educación en lugar de aumentar $ 300 en salario aumenta este modelo en 0.0062% lo llamamos nivel logarítmico y el valor estimado se convierte en una semi-elasticidad. Si registramos las dos variables, sería un modelo logístico. log e interpretación sería: Para un aumento del 1% en la educación, aumente el valor porcentual estimado en la variable y. A este efecto lo llamamos elasticidad (igual a la elasticidad precio que siempre vemos en el equipo de fijación de precios).

Variables categóricas

Ya sabemos por otros modelos cómo agregar una variable categórica, necesitamos modelarla como una variable ficticia (0 o 1) y ejecutar la regresión con esta nueva variable, creemos una variable como esta en nuestro modelo salarial que representará si o no el individuo nació en Brasil, ya que nuestras instituciones no son las mejores, Para el mismo individuo con la misma experiencia, educación y esfuerzo, el “odio” de vivir en Brasil es (en nuestro mundo teórico) $ -1000.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

3LRrBeYMnjFsAD5DMZ9qU5 1200 80

Cómo construir una PC: una guía paso a paso para construir la mejor PC

Descripción general técnica de la base de datos oracleNoSQL