in

Los factores de confusión simplificados

0LrQ0zAC0qgq7U5tT

Los factores de confusión simplificados

Jaime Sevilla

23 de agosto de 2019·10 min de lectura

ABSTRACTO: No se deben ajustar todas las covariables del tratamiento y las variables de resultado en un estudio observacional. Por defecto, uno debería dudar de los estudios que se ajustan ciegamente a muchos factores de confusión sin justificar su elección por motivos causales.

DESCARGO DE RESPONSABILIDAD: Mi conocimiento de la inferencia causal es tan limitado que podría estar diciendo cosas muy incorrectas. Comuníquese conmigo en Twitter @jsevillamol si encuentra un error!

El problema de los factores de confusión

Suponga que desea determinar el efecto causal de un tratamiento sobre un resultado. El primer orden del día es determinar si existe una correlación estadística entre ellos.

AlbeIAún siendo un desafío, tenemos buenas herramientas estadísticas para determinar redes de asociación estadística entre conjuntos complejos de variables.

Sin embargo, correlación no es causalidad – una correlación puede ser causada por un confundidor, un antecedente causal tanto del tratamiento como del resultado.

Por ejemplo, el tratamiento podría ser fumar, el resultado podría ser una enfermedad respiratoria y un factor de confusión plausible es la edad; las personas mayores fuman con más frecuencia Y son más propensas a padecer enfermedades respiratorias.

Podemos ilustrar esta situación con un diagrama causal:

0*6WYSLjTjDmirVGy3

Un diagrama causal para un estudio sobre tabaquismo

Decimos que hay un camino oculto desde el tratamiento hasta el resultado a través de la edad, es decir, tabaquismo enfermedad respiratoria.

Idealmente, querríamos realizar un ensayo controlado aleatorio (ECA) que asigne al azar el tratamiento para que podamos desviar el camino de la puerta trasera.

0*r3Dp7YdvYHwfelUP

Un ensayo controlado aleatorio (ECA) de un estudio sobre tabaquismo

Pero esto no siempre es posible; por ejemplo, el tratamiento puede ser poco ético o es posible que deseemos sacar conclusiones a partir de datos históricos. ¿Qué debemos hacer en esas situaciones?

Cómo no adaptarse a los factores de confusión

Una forma alternativa de bloquear la influencia espuria del factor de confusión es ajustando a través, por ejemplo estratificación. En el ejemplo del tabaquismo, podríamos dividir nuestros datos en jóvenes y ancianos, estudiar la correlación entre el tabaquismo y la enfermedad en cada grupo y luego informar la correlación ponderada como una estimación del efecto causal.

Esto funcionaría bien si estamos seguros de que la covariable es de hecho un factor de confusión o un ancestro causal tanto del tratamiento como del resultado, dado que dentro de cada grupo estudiado la variable de confusión es fija, ya no puede mediar una influencia espuria en el tratamiento y resultado, y podremos hacer afirmaciones sobre el verdadero efecto causal del tratamiento.

Entonces, cuando los investigadores identifican una variable que se correlaciona tanto con el tratamiento como con el resultado, tienden a ajustarla.

¡Pero esa no es la única relación causal posible entre las tres variables!

Posibles relaciones causales entre el tratamiento X, el resultado Y y la covariable Z

0*0yP997nnz0rjJae2

Confundidor
0*l7vQYzbj3bVUD01B

Mediador
0*3TKMayZJRZ1Q4IXu

Colisionador

Podría suceder que la covariable media la interacción entre el tratamiento y el resultado. Es decir, X => Z y Z => Y.

Por ejemplo, podríamos estar estudiando el efecto de los cultivos transgénicos en la salud del consumidor y descubrimos que es menos probable que los transgénicos se infecten con un patógeno. En ese caso, la presencia de un patógeno sería un mediador entre los OMG y la salud del consumidor.

Tenga en cuenta que el mediador no tiene que ser el único mecanismo que explique el efecto; el OMG también podría cambiar el perfil dietético del cultivo independientemente del efecto que tenga sobre los patógenos.

En este caso, el ajuste de la covariable Z reducirá el efecto aparente del tratamiento X sobre el resultado Y, y nuestro informe será engañoso (a menos que intentemos medir específicamente de forma aislada la parte del efecto del tratamiento no mediada por la covariable ).

La tercera posibilidad es que la covariable sea una colisionador de tratamiento y resultado. Es decir, tanto X como Y causan Z. Por ejemplo, podríamos tener que tanto a los investigadores de inteligencia artificial como a los aficionados al ajedrez les gusta leer los desarrollos sobre el juego automatizado de ajedrez.

El ajuste de un colisionador aumentará la fuerza aparente del efecto del tratamiento en el resultado.

En el ejemplo anterior, si encuestamos a las personas que han leído un artículo sobre cómo jugar al ajedrez automático, podemos encontrar que los aficionados al ajedrez tienen menos probabilidades de ser investigadores de IA y viceversa, pero eso no sería sorprendente, ya que estamos saliendo de nuestra encuesta. demografía las personas que no son ni investigadores de IA ni aficionados al ajedrez.

¡Así que tenga cuidado con los mediadores y colisionadores!

Ahora bien, ¿cómo distinguimos entre los casos en los que una covariable es un factor de confusión de los casos de los casos en los que es un mediador o un colisionador?

Respuesta corta: no podemos, al menos no solo por observar los datos. Necesitamos confiar en el conocimiento específico del dominio de las relaciones causales subyacentes.

Cuando se involucran múltiples covariables, la historia se vuelve más complicada. Necesitaríamos trazar el gráfico causal completo entre todas las covariables, el tratamiento y el resultado, y justificar nuestro mapa causal sobre bases científicas.

Luego, podemos usar las reglas del cálculo práctico y principios como el criterio de puerta trasera para encontrar un conjunto de covariables para ajustar para bloquear la correlación espuria entre el tratamiento y el resultado para poder estimar el verdadero efecto causal.

En general, esperaría que cuantas más variables se ajustan a un estudio, más probable es que estén introduciendo una correlación falsa a través de un colisionador o bloqueando una ruta de mediación.

El problema de los grados de libertad

Otra razón importante por la que deberíamos dudar de los estudios que se ajustan a muchas variables sin principios es la adición de grados de libertad sobre cómo realizar el estudio.

Si mide una relación entre dos variables de 1000 formas diferentes y elige la que muestra la mayor correlación, es probable que sobreestime la eficacia del tratamiento.

Tener un mayor conjunto de covariables le permite ajustar cualquier subconjunto que desee. Por ejemplo, si tiene acceso a 10 covariables, puede ajustar cualquiera de 2 ^ 10 ≈ 1000 posibles subconjuntos.

No tiene por qué ser que un solo grupo de investigación esté probando sistemáticamente todos los subconjuntos de ajuste posibles y seleccionando el mejor (aunque, en particular, algunos métodos estadísticos están haciendo algo bastante similar a esto, por ejemplo, métodos de selección de variables por pasos o los mejores subconjuntos). Podría ser que diferentes investigadores estén probando diferentes subconjuntos y el mecanismo que combina sus resultados esté sesgado.

Por ejemplo, 100 grupos de investigación podrían probar 100 subconjuntos diferentes. 95 de ellos identifican correctamente que no hay efecto, pero debido al sesgo de publicación no hacen que sus resultados estén ampliamente disponibles, mientras que los 5 grupos que identificaron erróneamente un efecto fuerte son los únicos que se publican, creando la impresión de que todos los estudios se realizaron encontró un efecto fuerte donde de hecho no lo hay.

En resumen, cuando no se compromete de antemano a seguir una forma basada en principios de realizar ajustes en su estudio, es más probable que introduzca un sesgo en sus resultados.

Una advertencia: aún necesita buenos controles

En este artículo nos enfocamos en el problema de elegir demasiados controles inadecuados porque esa es una intuición de la que veo que carecen más personas, incluso entre aquellos que, por lo demás, conocen la estadística aplicada.

Sin embargo, tenga en cuenta que puede cometer el error opuesto (puede fallar en ajustarse a los factores de confusión relevantes) y terminar concluyendo que el consumo de chocolate genera premios nobel.

Especialmente con las observaciones sobre fenómenos complejos, ajustar solo algunas cosas virtualmente garantiza que está omitiendo cosas por las que debería ajustarse, y puede que haya superado o subestimado el efecto.

Un desafío relacionado se encuentra bajo el título de «confusión residual». Incluso si identifica un factor de confusión y lo ajusta, seguirá influyendo en los resultados de forma proporcional a la precisión con la que pueda medirlo; naturalmente, medimos la mayoría de las cosas de manera inexacta o por proxy.

Entonces, para recapitular en una oración: Controlar los factores de confusión es clave si desea inferir efectos causales a partir de datos de observación..

¿Entonces, qué debemos hacer?

Como prueba de fuego, ser más dudoso de los estudios observacionales que se ajustan a las variables sin justificar su elección de ajuste por motivos causales.

Sin embargo, algunos estudios no hacen el trabajo necesario para justificar su elección de factores de confusión, lo que nos deja en una posición mucho peor para extraer datos fiables de su trabajo. ¿Qué podemos hacer en esos casos?

En primer lugar, podemos examinar cada uno de los factores de confusión elegidos de forma aislada y pensar cómo se comportan causalmente en relación con el tratamiento y el resultado.

Por ejemplo, supongamos que estamos revisando un estudio del efecto del Tratado de No Proliferación (X) sobre el nivel de inversión en armas nucleares (Y), y nos preguntamos si deberían haberse ajustado al PIB (Z).

Bueno, podría darse el caso de que los países con un PIB más alto también sean más influyentes y hayan configurado el tratado para que sea beneficioso para ellos, por lo que Z => X. Y los países con un PIB más alto pueden invertir más en armas nucleares, por lo que Z => Y. En este caso, el PIB sería un factor de confusión y deberíamos ajustarlo.

Pero podríamos contar una historia igualmente convincente argumentando que es probable que los países que firmen el tratado sean percibidos como más cooperativos y obtengan mejores acuerdos comerciales, por lo que X => Z. Y los países que invierten más en armas nucleares tienen mejor seguridad, por lo que atraen a más inversores, por lo que Y => Z. Según esta interpretación, el PIB es un colisionador y no deberíamos ajustarlo.

O podríamos combinar los dos escenarios anteriores para argumentar que X => Z y Z => Y, por lo que el PIB sería un colisionador y tampoco deberíamos ajustarlo.

En ausencia de una razón convincente para rechazar las explicaciones alternativas, no deberíamos ajustar por el PIB.

Sin embargo, imagine que el estudio se está ajustando a la participación en otros acuerdos nucleares. Parece artificial argumentar que la participación en otros tratados provocó la participación en el TNP; ambos parecen estar más directamente provocados por la predisposición general del país a firmar tratados nucleares.

0*LrQ0zAC0qgq7U5tT

En este caso, la “predisposición hacia los tratados” es un factor de confusión para el efecto del TNP en la inversión nuclear, pero no podemos observarlo directamente. Sin embargo, podemos bloquear su influencia espuria ajustando por “Otros tratados nucleares” según el criterio de puerta trasera.

¿Qué sucede si el estudio se ajusta tanto al GPD como a la participación en otros tratados nucleares?

Por defecto, deberíamos dudar de la validez causal de su conclusión.

Podríamos usar esta información para hacer algunas predicciones (por ejemplo, podríamos usar los resultados del estudio anterior para adivinar si un estado que iba a firmar el tratado de todos modos reducirá su inversión en arsenal nuclear) pero no podemos hacer un tratamiento. recomendaciones (por ejemplo, no podemos afirmar que presionar a un actor estatal para que acepte el TNP sea una forma efectiva de lograr que reduzca su arsenal).

Si queremos intentar rescatar sus resultados, podemos intentar construir un diagrama causal de variables relevantes y considerar si su elección de factores de confusión satisface los criterios relevantes.

Si las variables de ajuste que eligieron no bloquean adecuadamente los efectos espurios o introducen nuevos efectos a través de colisionadores, y tenemos acceso a los datos, es posible que deseemos intentar volver a ejecutar el estudio con una mejor elección de variables de ajuste.

Pero, por supuesto, aún podríamos identificar factores de confusión clave que los autores no incluyeron en el conjunto de datos. En ese caso, sugiero prestar atención a las palabras de John Tukey:

“La combinación de algunos datos y el doloroso deseo de una respuesta no garantiza que se pueda extraer una respuesta razonable de un determinado …

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Google Search API Zescrape

Cómo instalar Morpheus TV en Fire Stick

oraclecompra Vocado