in

La ecuación más triste de la ciencia de datos

0S579c5QA46zOptyr

La ecuación más triste de la ciencia de datos

Por qué las estadísticas nunca te darán la verdad

Cassie Kozyrkov

26 de junio de 2020·6 min de lectura

¡Prepara una caja de pañuelos! Estoy a punto de lanzar una bomba de verdad sobre estadísticas y ciencia de datos que te hará llorar.

1*MzptkQomV qotlh5WAn5NQ

INFERENCIA = DATOS + SUPUESTOS. En otras palabras, las estadísticas no te dan la verdad.

Mitos comunes

Aquí hay algunos conceptos erróneos estándar:

  • «Si encuentro las ecuaciones correctas, puedo conocer lo desconocido».
  • «Si hago cálculos matemáticos con mis datos lo suficiente, puedo reducir mi incertidumbre».
  • «¡Las estadísticas pueden transformar los datos en verdad!»

Suenan como cuentos de hadas, ¿no? ¡Eso es porque lo son!

Verdades dolorosas

No hay magia en el mundo que te permita hacermi algo de la nada, así que abandona esa esperanza ahora. De eso no se tratan las estadísticas. Tómelo de un estadístico. (Como beneficio adicional, este artículo podría evitar que pierda una década de su vida estudiando las artes oscuras de la estadística para perseguir ese sueño difícil de alcanzar).

Desafortunadamente, hay muchos charlatanes que pueden intentar convencerte de lo contrario. Harán un movimiento clásico de intimidación contra ti, «¡No entiendes las ecuaciones con las que te estoy golpeando, así que inclínate ante mi superioridad y haz lo que te digo!»

Resiste a esos impostores.

0*S579c5QA46zOptyr

¡No aterrices con un splat, Ícaro!

Piense en la inferencia estadística («estadísticas» para abreviar) como un salto similar al de Ícaro de lo que sabemos (nuestros datos de muestra) a lo que no sabemos (nuestro parámetro de población).

En estadística, lo que sabe no es lo que desearía saber.

Quizás quieras los hechos del mañana, pero solo tienes el pasado para informarte. (Es muy molesto cuando no podemos recordar el futuro, ¿verdad?) Quizás quieras saber qué piensan todos tus usuarios potenciales de tu producto, pero solo puedes preguntarles a un centenar de ellos. ¡Entonces estás lidiando con la incertidumbre!

No es magia, son suposiciones

¿Cómo puedes saltar de lo que sabes a lo que no? Necesitas un puente para cruzar ese abismo … y ese puente es supuestos. Lo que me devuelve a la ecuación más dolorosa de toda la ciencia de datos: DATOS + SUPUESTOS = PREDICCIÓN.

DATOS + SUPUESTOS = PREDICCIÓN

(No dude en reemplazar la palabra «predicción» con «inferencia» o «pronóstico”Si lo desea, aquí son todos lo mismo: una declaración sobre algo que no puede saber con certeza).

0*frTMF5feYjW9bkRg

¿Qué es una suposición?

Si supiéramos todos los hechos (y nosotros supo que nuestros hechos eran en realidad hechos verdaderos), no necesitaríamos suposiciones (o estadísticos). Las suposiciones son los parches desagradables que usa para cerrar la brecha entre lo que sabe y lo que desearía saber. Son trucos que tienes que usar para hacer que las matemáticas funcionen cuando te pierdes los hechos.

Las suposiciones son curitas feas que se colocan sobre las partes donde falta información.

¿Debería decirlo más sin rodeos? Una suposición no es un hecho, es una tontería que inventas precisamente porque tienes enormes lagunas en tu conocimiento. Si tiene el hábito de intimidar a las personas con sus intervalos de exceso de confianza, tómese un momento para recordar que es exagerado referirse a cualquier cosa basada en suposiciones como verdad. Es mejor comenzar a tratar todo el asunto como una herramienta de toma de decisiones personal que es imperfecta pero mejor que nada (en situaciones específicas).

La estadística es su intento de hacer su mejor esfuerzo en un mundo incierto.

Siempre hay suposiciones.

Las suposiciones son parte de la toma de decisiones

Muéstreme una decisión del mundo real «libre de suposiciones» y le recitaré una serie de suposiciones implícitas que ni siquiera sabe que está haciendo.

Ejemplos: Cuando leyó un periódico, ¿asumió que se verificaron todos los hechos? Cuando hizo sus planes para 2020, ¿asumió que no habría una pandemia mundial? Si analizó los datos, ¿asumió que la información se capturó sin errores? ¿Asumiste que tu generador de números aleatorios es aleatorio? (Por lo general, no lo son). Cuando eligió realizar una compra en línea, ¿asumió que se retiraría la cantidad correcta de su cuenta bancaria? ¿Qué hay del último bocadillo que comiste, asumiste que no te envenenaría? Cuando tomó el medicamento, ¿* sabía * algo sobre su seguridad y eficacia a largo plazo … o lo asumió?

Nos guste o no, las suposiciones son parte de la toma de decisiones.

Nos guste o no, las suposiciones siempre forman parte de la toma de decisiones. Una incursión adecuada en los datos del mundo real debe contener una serie de suposiciones escritas en las que el científico de datos aclare las esquinas que tuvo que tomar.

Incluso si elige mantenerse alejado de las estadísticas, probablemente esté utilizando suposiciones para guiar sus acciones. Para mantenerse seguro, es fundamental que realice un seguimiento de las suposiciones en las que se basan sus decisiones.

Cómo ocurre la «magia» estadística

El campo de la estadística le brinda todo un arsenal de herramientas para formalizar sus supuestos y combinarlos con evidencia para tomar decisiones razonables. (Vea mi introducción de 8 minutos a las estadísticas aquí).

Es absurdo esperar que un análisis que involucre incertidumbre y probabilidad sea una fuente de verdad con una T mayúscula.

Sí, así es como ocurre la «magia» estadística. usted elige con qué suposiciones estás dispuesto a vivir, luego las combinas con datos para tomar acciones razonables sobre la base de esa unión impía. Eso es todo lo que son las estadísticas.

Es por eso que un análisis que involucre incertidumbre y probabilidad nunca podría ser una fuente de verdad con una T mayúscula. No hay ningún arte oscuro secreto que pueda hacer eso por ti.

¡Dos personas pueden llegar a conclusiones válidas completamente diferentes a partir de los mismos datos! Todo lo que se necesita es utilizar diferentes supuestos.

¡También es la razón por la que dos personas pueden llegar a conclusiones válidas completamente diferentes a partir de los mismos datos! Todo lo que se necesita es utilizar diferentes supuestos. Las estadísticas le brindan una herramienta para tomar decisiones de manera más cuidadosa, pero no existe una única forma correcta de usarla. Es un personal herramienta de toma de decisiones.

Un estudio es tan bueno como las suposiciones que haga al respecto.

¿Y la ciencia?

¿Qué significa cuando un científico usa estadísticas para llegar a una conclusión? Simplemente que se han formado una opinión y han tomado la decisión de compartirla con el mundo. Eso no es malo: es el trabajo de un científico formar opiniones de mala gana, lo que me hace sentir mejor acerca de asumiendo que vale la pena escuchar.

Es el trabajo de un científico formar opiniones a regañadientes.

Soy un gran admirador de seguir los consejos de aquellos que tienen más experiencia e información que yo, pero nunca me permito confundir sus opiniones con hechos. Pero aunque muchos científicos están bien versados ​​en el trabajo con la probabilidad, he visto a otros científicos hacer suficiente desorden estadístico para durar varias vidas. Las opiniones no pueden (y no deben) convencer a alguien que no está dispuesto a hacer el suposición que esas opiniones se obtuvieron de manera competente a partir de una combinación de pruebas y mutuamente-supuestos agradables no probados.

Si desea escuchar más de mis reflexiones sobre ciencia y científicos, lea esta.

En resumen

Es mejor pensar en las estadísticas como la ciencia para cambiar de opinión en condiciones de incertidumbre. Es un marco que le ayuda a tomar decisiones bien fundamentadas cuando le falta información … y no existe una única forma correcta de utilizarla.

Y no, no le proporciona los datos que necesita; le da lo que necesita para hacer frente a no tener esos hechos en primer lugar. El objetivo es ayudarte a hacer tu mejor esfuerzo en un mundo incierto.

Para hacer eso, tendrás que empezar a hacer suposiciones.

Siguiente

En los artículos de seguimiento, escribiré acerca de dónde provienen las suposiciones, cómo elegir suposiciones «buenas» y qué significa probar una suposición. Si estos temas le intrigan, su retweets son mi motivación favorita para escribir.

Mientras tanto, la mayoría de los enlaces de este artículo te llevan a mis otras reflexiones. ¿No puedes elegir? Prueba uno de estos:

Nunca empieces con una hipótesis

Mentiras, malditas mentiras y STAT101

haciadatascience.com

¿Cuál es la diferencia entre análisis y estadísticas?

Comprender el valor de dos profesiones completamente diferentes

haciadatascience.com

La IA explicable no cumplirá. Este es el por qué.

La interpretabilidad no es la mejor base para la confianza

medium.com

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

persona video

¿Cómo grabo una videollamada?

Soporte Premier para software | Oráculo