in

Explicando las gráficas de probabilidad

1bv8YXFPX4V7oPRkrAKgEfQ
Fuente

Explicando las gráficas de probabilidad

Qué son, cómo implementarlos en Python y cómo interpretar los resultados

Eryk Lewinson

Eryk Lewinson

16 de abril de 20199 min de lectura

1. Introducción

Es posible que ya se haya encontrado con un tipo de gráficos de probabilidad, gráficos QQ, mientras trabajaba con regresión lineal. Uno de los supuestos de la regresión que debemos verificar después de ajustar el modelo es si los residuos siguen una distribución normal (gaussiana). Y a menudo se puede verificar visualmente utilizando un gráfico QQ como el que se presenta a continuación.

1*ga4OShXfruwb8L3tbiuUIw

Ejemplo de gráfico QQ

Para comprender completamente los conceptos de gráficos de probabilidad, repasemos rápidamente algunas definiciones de la teoría / estadística de probabilidad:

  • función de densidad de probabilidad (PDF): una función que nos permite calcular las probabilidades de encontrar una variable aleatoria en cualquier intervalo que pertenezca al espacio muestral. Es importante recordar que la probabilidad de que una variable aleatoria continua tome un valor exacto es igual a 0.
1*l5pHC91RCUj1h k6E9kOvA

PDF de distribución gaussiana
  • Función de distribución acumulativa (CDF): una función que proporciona la probabilidad de que una variable aleatoria tome un valor igual o menor que un valor dado. X. Cuando se trata de variables continuas, el CDF es el área bajo el PDF en el rango de menos infinito a X.
1*Xyh4upL2LGn79iJcWKvM4w

Fórmula general para CDF, X – variable aleatoria, x – punto de evaluación
  • Cuantil, citando Wikipedia: «puntos de corte que dividen el rango de una distribución de probabilidad en intervalos continuos con probabilidades iguales»

El siguiente gráfico presenta una distribución de una variable aleatoria extraída de la Distribución normal estándar, así como de PDF y CDF.

1*Gk3aAWtoaZrJP7Nw0tfFqQ

En tEn su artículo, usaré otras dos distribuciones para comparar:

  • Distribución normal con media 1 y desviación estándar 2,5 – N (1, 2,5)
  • Distribución normal sesgada con alfa = 5

Utilizo la distribución normal de sesgo, ya que al ajustar el parámetro alfa (dejando la escala y la ubicación por defecto) controlo el sesgo de la distribución. A medida que aumenta el valor absoluto de alfa, también aumenta el valor absoluto de asimetría. A continuación, podemos inspeccionar la diferencia en las distribuciones observando histogramas de variables aleatorias extraídas de ellas.

1*muuL2hUPCRgXMcB9l6U4tQ

2. Gráficas de probabilidad

Usamos gráficos de probabilidad para comparar visualmente datos provenientes de diferentes conjuntos de datos (distribuciones). Los posibles escenarios implican comparar:

  • dos conjuntos empíricos
  • un conjunto empírico y uno teórico
  • dos conjuntos teóricos

El uso más común de las gráficas de probabilidad es el medio, cuando comparamos datos observados (empíricos) con datos que provienen de una distribución teórica específica como la gaussiana. Utilizo esta variante para explicar los tipos particulares de gráficos a continuación, sin embargo, también se puede aplicar a los otros dos casos.

2,1 PP trama

En resumen, el gráfico PP (probabilidad-probabilidad) es una visualización que traza los CDF de las dos distribuciones (empírica y teórica) entre sí.

1*Y3rnKC3gqVpd6LHzt dyw

Ejemplo de un gráfico PP que compara números aleatorios extraídos de N (0, 1) con el estándar normal: coincidencia perfecta

Alguna información clave sobre las parcelas de PP:

  • Interpretación de los puntos en la gráfica: asumiendo que tenemos dos distribuciones (F y gramo) y un punto de evaluación z (cualquier valor), el punto en la gráfica indica qué porcentaje de datos se encuentra en o debajo z en ambos F y gramo (según la definición de la CDF).
  • Para comparar las distribuciones, verificamos si los puntos se encuentran en una línea de 45 grados (x = y). En caso de que se desvíen, las distribuciones difieren.
  • Los gráficos de PP son adecuados para comparar regiones de alta densidad de probabilidad (centro de distribución) porque en estas regiones las CDF empíricas y teóricas cambian más rápidamente que en regiones de baja densidad de probabilidad.
  • Los gráficos de PP requieren distribuciones completamente especificadas, por lo que si usamos gaussiano como distribución teórica, debemos especificar la ubicación y los parámetros de escala.
  • Cambiar la ubicación o los parámetros de escala no necesariamente preserva la linealidad en los gráficos PP.
  • Los gráficos de PP se pueden utilizar para evaluar visualmente la asimetría de una distribución.
  • El gráfico puede dar como resultado patrones extraños (por ejemplo, siguiendo los ejes del gráfico) cuando las distribuciones no se superponen. Por lo tanto, los gráficos de PP son más útiles cuando se comparan distribuciones de probabilidad que tienen una ubicación cercana o igual. A continuación presento una gráfica PP que compara variables aleatorias extraídas de N (1, 2,5) y comparado con N (5, 1).
1*5T8vtjY1W m4Mfvk7SHVcg

Variables aleatorias extraídas de N (1, 2.5) frente a N (5, 1)

2.2. Gráfico QQ

De manera similar a las gráficas PP, las gráficas QQ (cuantiles-cuantiles) nos permiten comparar distribuciones trazando sus cuantiles entre sí.

Alguna información clave sobre las parcelas QQ:

  • Interpretación de los puntos del gráfico: un punto del gráfico corresponde a un determinado cuantil procedente de ambas distribuciones (de nuevo, en la mayoría de los casos, empírico y teórico).
  • En una gráfica QQ, la línea de referencia depende de la ubicación y los parámetros de escala de la distribución teórica. La intersección y la pendiente son iguales a los parámetros de ubicación y escala, respectivamente.
  • Un patrón lineal en los puntos indica que la familia de distribuciones dada describe razonablemente la distribución de datos empíricos.
  • El gráfico QQ obtiene muy buena resolución en las colas de la distribución, pero peor en el centro (donde la densidad de probabilidad es alta)
  • Los gráficos QQ no requieren especificar la ubicación y los parámetros de escala de la distribución teórica, porque los cuantiles teóricos se calculan a partir de una distribución estándar dentro de la familia especificada.
  • La linealidad del patrón de puntos no se ve afectada por el cambio de ubicación o parámetros de escala.
  • Los gráficos QQ se pueden utilizar para evaluar visualmente la similitud de ubicación, escala y asimetría de las dos distribuciones.

3. Ejemplos en Python

Yo uso el statsmodels biblioteca para crear gráficos de probabilidad con la ProbPlot clase.

Parcelas de PP

Cuando comencé a crear algunos gráficos de PP usando statsmodels Noté un problema: como estaba comparando extracciones aleatorias de N (1, 2.5) con Estándar Normal, la trama encajaba perfectamente, aunque no debería serlo. Intenté investigar este problema y encontré una publicación en StackOverflow, que explica que la implementación actual siempre intenta estimar la ubicación y los parámetros de escala de la distribución teórica, incluso cuando se proporcionan algunos valores. Entonces, en el caso anterior, estamos verificando si nuestros datos empíricos provienen de la distribución Normal, no de la que especificamos.

Es por eso que escribí una función para la comparación directa de datos empíricos con una distribución teórica con los parámetros proporcionados.

Primero intentemos comparar el sorteo aleatorio de N (1, 2.5) a N (0, 1) usando ambos statsmodels y pp_plot. Vemos que en el caso de statsmodels es un ajuste perfecto, ya que la función estimó tanto la ubicación como los parámetros de escala de la distribución normal. Al inspeccionar el resultado de pp_plot vemos que las distribuciones difieren significativamente, lo que también se puede observar en los histogramas.

1* 67QSzC2A 2CVM0AOmdeJQ

Gráficos de PP de N (1, 2.5) frente a estándar normal

Intentemos también interpretar la forma de la gráfica PP a partir de pp_plot. Para ello, volveré a mostrar el gráfico, junto con los histogramas. El movimiento horizontal a lo largo del eje x se debe al hecho de que las distribuciones no se superponen por completo. Cuando el punto está por encima de la línea de referencia, significa que el valor de la CDF de la distribución teórica es mayor que el de la empírica.

1*eQzoJ0aTUK58 mBg0qmv4w

El siguiente caso es comparar el sorteo aleatorio de Skew Normal a Standard Normal. Vemos que la trama de statsmodels implica que no es una coincidencia perfecta, ya que tiene problemas para encontrar la ubicación y los parámetros de escala de una distribución normal que explican la asimetría en los datos proporcionados. El gráfico también muestra que el valor de la CDF de la normal estándar es siempre mayor que el de la distribución normal sesgada considerada.

1*K5cCZGgkj6KIIX560B4nBw

Gráficos de PP de Skew Normal (alfa = 5) vs Standard Normal

Nota: También podemos obtener un ajuste perfecto utilizando statsmodels. Para hacerlo, necesitamos especificar la distribución teórica en ProbPlot como skewnorm y pasar un parámetro adicional distargs=(5,) para indicar el valor de alfa.

Parcelas QQ

Aplicación e interpretación

Comencemos comparando la distribución Skew Normal con Standard Normal (con ProbPlot’s configuración por defecto).

1*wgZtpW0Mae d5R uGON3Xw

Gráficos QQ de Skew Normal (alpha = 5) vs Standard Normal

Lo primero que se puede observar es el hecho de que los puntos forman una curva en lugar de una línea recta, lo que generalmente es una indicación de asimetría en los datos de la muestra. Otra forma de interpretar la trama es mirando las colas de la distribución. En este caso, la distribución normal de sesgo considerada tiene una cola izquierda más clara (menos masa, puntos en el lado izquierdo de la gráfica QQ encima de la línea) y una cola derecha más pesada (más masa, puntos en el lado derecho de la gráfica QQ arriba de la línea) de lo que cabría esperar con la distribución estándar normal. Debemos recordar que la distribución sesgada se desplaza (como se puede observar en los histogramas), por lo que estos resultados están en línea con nuestras expectativas.

También quería repasar rápidamente otras dos variaciones del mismo ejercicio. En el primero, especifico la distribución teórica como Skew Normal y paso alpha=5 en distargs. Esto da como resultado la siguiente gráfica, en la que vemos un patrón lineal (aunque desplazado en comparación con la línea de referencia estandarizada). Sin embargo, el patrón de línea es básicamente una línea de 45 grados, lo que indica un buen ajuste (la línea de referencia estandarizada resulta no ser una buena opción en este caso).

1*ST4hWmHH20FG7cnoqZkr4Q

Gráficos QQ de Sesgo normal (alfa = 5) frente a Sesgo normal (alfa = 5)

El segundo enfoque consiste en comparar dos muestras empíricas, una extraída de Skew Normal (alpha=5), el segundo de Standard Normal. lo puse fit=False para desactivar el ajuste automático de ubicación, escala y distargs.

Los resultados parecen estar en línea con el enfoque inicial (lo cual es una buena señal :)).

1*zhAIq8 tdelHttZ5p4QhAg

Ejemplo usando devoluciones de acciones

También me gustaría mostrar un ejemplo práctico del uso de la gráfica QQ para evaluar si los rendimientos generados por los precios de las acciones de Microsoft siguen la distribución normal (consulte este artículo para obtener más detalles). La conclusión es que definitivamente hay más masa en las colas (lo que indica rendimientos más negativos y positivos) que como se supone en Normalidad.

1*bpkks4cgTm3RfSWNP0pOmQ

Rendimientos en MSFT vs Norma Distribution

Más detalles de implementación

En el qqplot método de ProbPlot podemos especificar qué tipo de línea de referencia nos gustaría dibujar. Las opciones (aparte de None para ninguna línea) son:

  • s – línea estandarizada (las estadísticas de orden esperado se escalan por la desviación estándar de la muestra dada y se les agrega la media)
  • q – ajuste de línea a través de los cuartiles
  • r – línea de regresión
  • 45 – y = línea x (como la que se usa en los gráficos de PP)

A continuación muestro una comparación de los tres métodos que, como podemos ver, son muy similares.

1* 4ncGEH4 ZP9Qy3b3YXTig

Cuando trabajamos con QQ plot también podemos usar otra característica de statsmodels que adopta probabilidades de no excedencia en lugar de cuantiles teóricos (probplot método en lugar de qqplot).

Puedes leer más sobre esta metodología aquí.

4. Resumiendo

En este artículo, he intentado explicar los conceptos clave de las gráficas de probabilidad en los ejemplos de las gráficas PP y QQ. Puede encontrar el cuaderno con el código utilizado para generar los gráficos mencionados en el artículo en mi GitHub. En caso de que tenga preguntas o sugerencias, hágamelo saber en los comentarios o comuníquese con Gorjeo.

Referencias

  • https://www.quora.com/In-laymans-terms-what-is-the-difference-between-aPP-plot-and-aQQ-plot-and-when-would-we-use-one-or- el otro
  • http://v8doc.sas.com/sashtml/qc/chap8/sect9.htm
  • https://www.statsmodels.org/stable/generated/statsmodels.graphics.gofplots.ProbPlot.qqplot.html

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

00cfHAEeCnT7zOYrdiftrxL 1.1632665777.fit lim.size 1200x630

Apple rompió una función de AirPods Pro con iOS 15

148752

Patrones de diseño: objeto de acceso a datos