in

ANOVA unidireccional desde cero: diseccionando la tabla ANOVA con un ejemplo trabajado

ANOVA unidireccional desde cero: diseccionando la tabla ANOVA con un ejemplo trabajado

Joos Korstanje

11 de noviembre de 2019·7 min de lectura

ANOVA, abreviatura de análisis de varianza, es un método estadístico muy utilizado para comparar medias utilizando significación estadística. En este artículo, explico cómo calcular la tabla ANOVA unidireccional desde cero, aplicada en un buen ejemplo.

  1. Comprender el modelo ANOVA
  2. Ejecutando ANOVA usando la biblioteca statsmodels de Python
  3. ANOVA desde cero: disección de la tabla ANOVA
  4. Conclusión

1. El objetivo del ANOVA unidireccional a través de un ejemplo

A lo largo de este artículo, seguiré un ejemplo sobre los tiempos de entrega de pizzas. Imagine que hemos pedido pizza muchas veces en 3 empresas de pizzas diferentes (A, B y C) y hemos medido los tiempos de entrega.

Conseguir nuestros 21 tiempos de entrega de pizza observados en pandas
1*RlRf ZZPXorzOv4cObOAFg

Pandas DataFrame con los tiempos de entrega de pizzas
1*hqllCZiPpBmcSsYvR BUfw

Plazo medio de entrega por empresa

2. ¿Cómo funciona ANOVA?

El modelo ANOVA comienza estimando la cantidad total de variación que existe en los tiempos de entrega de pizzas (por eso se llama Análisis de Varianza).

El tiempo de entrega promedio de las empresas es una información más valiosa que el tiempo de entrega promedio general.

La variación entre grupos es explicada por nuestra compañía variable

Si sumamos la variable empresa en el gráfico, vemos que si sabemos qué empresa entrega nuestra pizza, podemos dar un rango más preciso de tiempos de entrega.

  • Si la empresa B entrega, tarda entre 10,0 y 14,0 minutos.
  • Si la empresa C entrega, tarda entre 8,9 y 13,6 minutos.

La variación dentro del grupo no es explicada por nuestra compañía variable

Sin embargo, también hay una parte de la variación que no puede ser explicada por nuestra variable ‘Empresa’: todavía no sabemos por qué hay una diferencia entre 11,8 y 14 en los tiempos de entrega de la empresa A y necesitaríamos más variables para explicar. esta.

ANOVA: prueba de hipótesis para diferencias de grupo

Cuando la variación total se divide en dos, se aplica una prueba de hipótesis para averiguar si las diferencias observadas en nuestra muestra de 21 son significativo:

3. ANOVA usando modelos de estadísticas

En Python, la prueba F de ANOVA unidireccional se puede obtener de la siguiente manera:

1*DPBP8zdv

Tabla ANOVA de 1 vía

4. ANOVA usando matemáticas y python – desde cero

¡Sigue el cuaderno de Python aquí!

4.1. Suma de cuadrados total

¡Vayamos a la acción! Lo que describí antes como variación se mide matemáticamente por la suma de cuadrados,

1*0HXQYsl

Suma de cuadrados
1*remU8eYDmTv yUtnAnOiBQ

Calcular la media general para ANOVA
1*FCxNRCp tPx wfWh5ylQ A

Calcular el total de la suma de cuadrados

4.2. Suma de cuadrados residuales

El cálculo de la suma de cuadrados residual es ligeramente diferente porque no toma el promedio general, sino los promedios de los tres grupos.

Calcular la suma de cuadrados residuales

4.3. Suma de cuadrados explicada

Habiendo calculado la suma total de cuadrados y la suma residual de cuadrados, ahora podemos calcular la Suma Explicada de Cuadrados usando:

1*gM0yge15fq UnNFNY7r0Uw

Suma de sumas de cuadrados
1*Cg7YC6kvGjmX6mEzDQ XQg

Calcular el modelo de suma de cuadrados

4.4. Grados de libertad

No entro en los grados de libertad en este artículo, pero los necesitamos en cálculos posteriores:

  • df2 = gl del residual = número de observaciones – número de grupos

4.5. Cuadrados medios

La prueba estadística que es central en ANOVA es la prueba F. La hipótesis nula establece que la media de todos los grupos es igual, lo que implica que nuestro modelo no tiene valor explicativo y que no tenemos pruebas para elegir una empresa de pizzas sobre otra.

Calcular los cuadrados medios
1*l6hicXQ7Kyn4bm3Or5uI6Q

Calcular los cuadrados medios en Python

4.6. Estadística F

Usamos los cuadrados medios para calcular el estadístico F como la relación entre la variación explicada y la inexplicada:

1*IOV eIIQHXZq4taC0lLn2A

Calcular el estadístico F
1*Y fnI6ao Nrylj7dGQOZcA

Calcule la puntuación F en Python.

4.7. Valor p

En la prueba de hipótesis, el valor p se usa para decidir si una hipótesis alternativa puede aceptarse o no (lea más sobre los valores p aquí si es necesario).

1*GcUFwL68p7Ezz5QOTNjKfQ

Calcule el valor p usando scipy

4.8. Interpretar el valor p

Tenemos que comparar el valor p con nuestro alfa elegido, en este caso, 0,05.

5. Conclusión

En este artículo, ANOVA nos ha permitido probar estadísticamente si las diferencias muestrales se pueden generalizar como diferencias poblacionales.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

036Dird6Q3E7loik60ikjP8 1.1632493915.fit lim.size 1200x630

China declara ilegal la minería y el comercio de criptomonedas

oracle social share 480 database

¿Qué es una base de datos?