in

¿Por qué es importante el teorema del límite central para los científicos de datos?

0RseA3vTi9r0G RCB

CIENCIA DE DATOS, ESTADÍSTICAS

¿Por qué es importante el teorema del límite central para los científicos de datos?

El teorema del límite central está en el centro de la inferencia estadística de lo que cada científico / analista de datos hace todos los días.

Saurav Singla

9 de agosto de 2020·6 min de lectura

En este artículo, exploraremos el teorema del límite central, ¿qué es el teorema del límite central y por qué es importante y cuál es la diferencia entre la ley de los números grandes y el teorema del límite central?

los Teorema del límite central (CLT) es un pilar de Estadísticas y probabilidad. El teorema expresa que a medida que se expande el tamaño de la muestra, la distribución de la media entre múltiples muestras será como una distribución gaussiana.

Podemos pensar en hacer un trial y obtener un resultado o una observación. Podemos repetir la prueba nuevamente y obtener otra observación independiente. Numerosas observaciones acumuladas representan una muestra de observaciones.

Si calculamos la media de una muestra, se aproximará a la media de la distribución de la población. En cualquier caso, como cualquier estimación, no será correcta y contendrá algunos errores. En la remota posibilidad de que saquemos numerosas muestras independientes y calculemos sus medias, la distribución de esas medias formará una distribución gaussiana.

El CLT nos da una cierta distribución sobre nuestras estimaciones. Podemos utilizar esto para plantear una pregunta sobre la probabilidad de una estimación que hagamos. Por ejemplo, suponga que estamos intentando pensar en cómo resultará una elección.

Realizamos una encuesta y descubrimos que en nuestra muestra, el 30% de los individuos se decidiría a favor del candidato A sobre el candidato B. Obviamente, acabamos de ver una pequeña muestra de la población total, por lo que preferimos saber si nuestro resultado puede se dice que es válido para toda la población y, si no es así, nos gustaría comprender qué tan importante puede ser el error.

En la medida de lo posible, el CLT nos revela que, en caso de que realizáramos la encuesta una y otra vez, las teorías posteriores se distribuirían normalmente entre el valor real de la población.

El CLT trabaja desde el centro hacia afuera. Eso significa que, en caso de que suponga que está cerca del centro, por ejemplo, que alrededor de dos tercios de los totales futuros caerán dentro de una desviación estándar de la media, puede estar seguro incluso con muestras pequeñas.

Sin embargo, si habla de las colas, por ejemplo, suponiendo que un total superior a cinco desviaciones estándar de la media es casi impensable, puede sentirse mortificado, incluso con muestras considerables.

El CLT decepciona cuando una distribución tiene una variación no limitada. Estos casos son raros pero pueden ser importantes en ciertos campos.

El CLT se confunde regularmente con el ley de los grandes números (LLN) por principiantes. No son idénticos y la diferenciación clave entre ellos es que el LLN se basa en el tamaño de una sola muestra, aunque el CLT se basa en el número de muestras.

LLN expresa que las medias muestrales de las percepciones de observaciones independientes e indistinguiblemente distribuidas se unen a un cierto valor en la medida de lo posible. CLT retrata la distribución de la distinción entre las medias muestrales y el valor.

El CLT desempeña un papel importante en la inferencia estadística. Representa con precisión en qué medida un aumento en el tamaño de la muestra disminuye el error de muestreo, lo que nos informa sobre la precisión o el margen de error para las estimaciones de estadísticas, por ejemplo, porcentajes, a partir de muestras.

La acumulación de un número relativamente grande de variables aleatorias independientes da como resultado una variable aleatoria que es aproximadamente Normalmente distribuido.

Inferencia estadística depende de la posibilidad de que sea concebible llevar una visión amplia de los resultados de una muestra a la población. ¿Cómo podemos garantizar que las relaciones vistas en un ejemplo no se deben solo a la posibilidad?

Pruebas de significancia tienen como objetivo ofrecer una medida objetivo para informar decisiones sobre la validez de la visión amplia. Por ejemplo, se puede localizar una relación negativa en una muestra entre educación e ingresos. Sin embargo, la información adicional es esencial para demostrar que el resultado no es solo una posibilidad, sino que es estadísticamente significativo.

CLT afirma la prominencia de la distribución gaussiana como una distribución restrictiva natural. Legitima numerosas teorías asociadas con la estadística, por ejemplo, la normalidad de los términos de error en la regresión lineal es la totalidad independiente de numerosas variables aleatorias con varianza limitada o errores indetectables, normalmente podemos esperar que se distribuya normalmente.

Sólidamente, cuando no tiene ni idea de la distribución de ciertos datos, en ese momento, puede utilizar el CLT para presumir su normalidad.

El inconveniente del CLT es que se utiliza con frecuencia sin comprobar las sospechas, que ha sido la situación en el dominio de finanzas durante bastante tiempo, suponiendo que los retornos fueran normales, aunque tienen un distribución de cola grasa, que de forma característica conlleva un mayor número de peligros que la distribución normal.

CLT no tiene ninguna influencia significativa cuando se maneja con sumas de variables aleatorias dependientes o sumas de variables aleatorias distribuidas de manera no indistinguible o sumas de variables aleatorias que violan tanto la condición de autonomía como la condición de distribución indistinguible.

Hay CLT adicionales que aflojan la autonomía o las condiciones de distribución indistinguible. Por ejemplo, existe el Teorema de Lindberg-Feller, que a pesar de todo, requiere que las variables aleatorias sean independientes, pero afloja la condición de distribución indistinguible.

El CLT se utiliza para inferencias medias. El CLT implica que la media de una muestra grande de una distribución de varianza finita tiene una distribución normal estimada. El tamaño de la muestra antes de mirar la aproximación es suficientemente bueno dependiendo de la distribución, por lo que sin valores atípicos, usaremos la media de la muestra como una medida promedio de la población para encontrar la probabilidad de error.

El CLT es una intuición desafiante. Claro, podemos ofrecer todo tipo de historias y podemos hacer muchas demostraciones técnicas, pero el CLT es muy enigmático. Es absolutamente mágico que gaussiano sea la distribución limitante. Es una cuestión de naturaleza. En ese sentido, es casi como la gravedad. El CLT no fue inventado por humanos, pero definitivamente fue probado por humanos.

La distribución normal da un modelo muy básico de un pico y simétrico. El escalado y el movimiento invariante de los parámetros solo necesitan ser reescalados. También es útil para la identificación de cambios y escalado en funcionamiento. Muchas comparaciones de muchas poblaciones de cambio medio se verifican convenientemente mediante un análisis de la varianza del modelo normal (que es resistente a las desviaciones de la normalidad, mientras que la invariancia de las variaciones puede tener un efecto sustancial en los resultados obtenidos).

La distribución normal se utiliza a menudo como un modelo de error de cualquier modelo para investigar la idoneidad del modelo utilizando las cantidades de cuadrados residuales del modelo analizado. También se utiliza en la teoría de la regresión para explicar las desviaciones del modelo hipotetizado, mientras que otros modelos se utilizan para los resultados del recuento, por ejemplo.

El CLT puede ser el teorema más utilizado de toda la ciencia: la gran mayoría de la ciencia empírica en campos que van desde la astronomía hasta la psicología y la economía, de una manera u otra, apela al teorema. Siempre que vea los resultados de la encuesta informados en la televisión junto con los intervalos de confianza, hay alguna referencia al teorema de la limitación clave entre bastidores.

La CLT se lleva a cabo en prácticamente todas las muestras, encuestas, ensayos clínicos, análisis experimentales, intervenciones aleatorias y casi cualquier otro tipo de prueba científica que pueda imaginar.

Conclusión

La ventaja del CLT es que es poderoso, lo que significa que, independientemente de si los datos se originan a partir de una variedad de distribuciones, si su media y varianza son equivalentes, el teorema puede utilizarse incluso ahora.

El CLT observa que las medias de la muestra convergen en las medias de la población y la distancia entre ellas converge para distribuirse normalmente con una varianza igual a la varianza de la población a medida que aumenta el tamaño de la muestra. Es importante en la aplicación de estadísticas y en la comprensión de la naturaleza.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

07rMP6HlrMvcOcFoC34nJu4 1.1628188817.fit lim.size 1200x630

La barra de tareas de Windows 11 coloca los iconos de la aplicación al frente y al centro: aquí se explica cómo personalizarla

Máquina de base de datos oracleExadata | Red de tecnología de Oracle