in

¡Usa gráficos causales!

1TETnr1maS79Cn3yNveXfFw

Inferencia causal casual

¡Usa gráficos causales!

Aleix Ruiz de Villa

19 de noviembre de 2018·6 min de lectura

Esta es la segunda publicación de una serie sobre causalidad en la ciencia de datos. Puede comprobar el primero «¿Por qué necesitamos la causalidad en la ciencia de datos?» y el siguiente “Observar no es intervenir”. Como dijimos, actualmente existen dos marcos principales para trabajar con la causalidad: los resultados potenciales y los gráficos. Aquí continuaremos explicando por qué es necesaria la inferencia causal y cómo ayudan los gráficos.

Modelos graficos

Los gráficos son una herramienta increíble. ModificaciónmiLing la causalidad a través de gráficos aporta un lenguaje apropiado para describir la dinámica de la causalidad. Siempre que pensamos que un evento A es una causa de B, dibujamos una flecha en esa dirección.

1*TETnr1maS79Cn3yNveXfFw

Esto significa que su modelo está considerando una posible relación causal de A a B. Esto va desde “A es la principal fuente de causalidad” hasta “A casi no explica nada sobre B”. En particular, comprende el caso en el que A es en realidad no una causa de B. Estarías sobremodelando la realidad, pero el modelo no sería incorrecto. Por eso, las suposiciones clave vienen cuando no pones una flecha. En este caso, usted está reclamando independencia entre variables y debería poder argumentar y defender por qué es así. En resumen, cuantas más suposiciones, menos flechas.

Hablar de correlaciones no es suficiente

Los gráficos amplían el lenguaje estadístico. El ejemplo más simple es que la correlación es simétrica, mientras que los gráficos dirigidos no lo son. Simplemente puedo escribir

1*JfNksTiFsw8A3biHDhs4fg

una relación causal entre llover y tener un piso mojado como un gráfico. Por otra parte, correlación (lluvia, suelo húmedo) = correlación (suelo húmedo, lluvia). So la correlación es ciega a la direccionalidad. Si queremos hablar de causalidad, necesitamos un lenguaje que pueda lidiar con el comportamiento causal.

En términos de fórmulas para modelos causales, escribiríamos

Piso húmedo: = f (lluvia, aleatoriedad)

lo que significa que tener un piso mojado depende de la lluvia y de algunas otras variables aleatorias (independientes de la lluvia). La clave aquí es el símbolo “: =”, que significa que la lluvia afecta el piso mojado, pero no al revés. Esta no es una ecuación matemática donde ambos lados son equivalentes, sino una ecuación programática donde el valor del piso húmedo se calcula a partir de la lluvia, pero el valor de la lluvia no se establece a partir del piso húmedo.

Modelos lineales causales

Los modelos lineales son uno de los ingredientes clave de las estadísticas. A través de la lente causal, facilitan la interpretación de los efectos directos e indirectos. Para empezar, considere el siguiente ejemplo. Una empresa de aviones que quiere expandir su negocio a un nuevo aeropuerto. Eligen un aeropuerto, traen su flota, fijan un precio y venden billetes de avión. Durante algunos meses experimentan con los precios hasta llegar a un precio rentable y sostenible. Los clientes, a la hora de comprar los billetes, tienen en cuenta la distancia de su domicilio al aeropuerto y el precio de los vuelos. Dado que son una empresa en crecimiento, lo han estado haciendo durante los últimos 5 años. Estos eventos podrían describirse a través del siguiente gráfico, donde Distancia es la distancia desde la ciudad que atrae a la mayoría de sus clientes, Precio es el precio medio mensual y Vuelos es el número medio mensual de vuelos.

1*He82WUfs0g2TcD50TBvnqw

Ahora, se preguntan, para los próximos aeropuertos con los que quieren trabajar, cómo la distancia afecta la cantidad de vuelos? Mirando los datos, llegan a la conclusión de que los modelos lineales son suficientes en este caso. Y luego realizan una regresión lineal tratando de expresar Vuelos de Distancia y Precio.

Obtienen el modelo lineal resultante

Vuelos = -10 Distancia + -5 Precio

que se puede leer como lo siguiente: fijo un precio de vuelo en particular (digamos 100 $), si aumenta la distancia, el número de vuelos disminuirá en 10 unidades. Sin embargo, ¡esto no es lo que quieres! ¡Cuando aumente la distancia, también afectará el precio (no se puede arreglar)! Está interesado en la cantidad de unidades de Vuelos cambiar cuando cambia una unidad de Distancia, también llamado efecto total.

Desde la perspectiva de los modelos gráficos, podemos poner un modelo lineal en cada borde y tener el siguiente conjunto de ecuaciones:

1*PAAOzlM5fgZ8lH6IU6vf1w

Precio: = -3 Distancia + Random_1

Vuelos: = -10 Distancia + -5 Precio + Random_2

Ahora vemos dos efectos de Distancia para Vuelos:

  • Efecto directo (Distancia -> Vuelos): Percepción negativa del cliente a distancia.
  • Efecto indirecto (Distancia -> Precio -> Vuelos): El aumento de la distancia, obliga a las empresas a reducir el precio y eso produce un incremento de vuelos.

Trabajando con las fórmulas anteriores, el efecto total se puede obtener mediante la sustitución de la variable Precio por su relación con Distancia:

Vuelos: = -10 Distancia + -5 Precio + Error_2 = (-10 + (-5) (- 3)) Distancia + Random_3 = 5 Distancia + Random_3

El efecto total en este caso es 5 (= -10 + (-5) (- 3)). Pero este ha sido un ejemplo de juguete. ¿Cómo podríamos calcular el efecto total directamente a partir de los datos? En este caso, puede agregar todos los efectos directos e indirectos expresando Vuelos solo de Distancia. Entonces la respuesta es realizar una regresión lineal de Vuelos solo de Distancia.

Observe cómo las conclusiones difieren del primer y último análisis de regresión. El primero concluyó que la distancia tuvo un efecto negativo de -10 en el número de vuelos, mientras que el último concluyó un efecto positivo de 5! Si la gestión de precios compensa la percepción negativa de los clientes sobre la distancia, aún puede obtener un efecto positivo en el número de vuelos mientras busca aeropuertos menos accesibles.

Conclusiones:

  1. Si desea calcular el efecto total, debe realizar la regresión de Vuelos de Distancia (a diferencia de la primera regresión que pone todas las variables en el cálculo).
  2. El uso de gráficos ayuda mucho a comprender, razonar y debatir sobre todo el análisis.

Los datos no hablan por sí mismos

Hemos visto que para calcular el efecto de la distancia sobre el número de vuelos, nos hemos basado en el gráfico. Ahora imagina una situación diferente. La compañía aérea, en lugar del proceso descrito anteriormente, ha procedido de la siguiente manera: han fijado un precio al que quieren fijar sus vuelos. Después, buscan un aeropuerto que creen que satisfará sus necesidades. En este caso, tendríamos el siguiente gráfico:

1*DOCOjcdaiG1QPPbNm1bGpA

Tenga en cuenta que la flecha de Distancia para Precio se ha revertido. En este caso, cambiar una unidad de distancia no cambia el precio en absoluto. Entonces, si queremos saber cómo cambiar una unidad de distancia cambia una unidad en vuelos, podemos realizar directamente la regresión lineal

Vuelos = -10 Distancia + -5 Precio

y la respuesta sería -10! Esto significa que la forma en que se generan los datos y cómo modelamos este proceso es realmente importante. Además, este conocimiento no proviene de los datos, sino del dominio particular en sí. Eventualmente podríamos tener dos conjuntos de datos idénticos, pero si la forma en que se generaron difiere, probablemente tendríamos que analizarlos de una manera diferente.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

kHmFKPRw7pstoEbqQWW59Z 1200 80

Las mejores ventas y ofertas baratas de aspiradoras Dyson para septiembre de 2021

Sistemas de ingeniería | Oráculo