in

Gráficos de burbujas, por qué y cómo

1O CQTq6MAzjLLkRDd9fJaA

Gráficos de burbujas, por qué y cómo

Contar historias con burbujas

Darío Weitz

8 de julio de 2020·9 min de lectura

Imagen de Braedon McLeod de Unsplash

AKA: gráficos de burbujas, gráficos de burbujas

Por qué: Los gráficos de burbujas se utilizan para determinar si al menos tres variables numéricas están relacionados o compartir algún tipo de patrón. En circunstancias especiales, podrían utilizarse para mostrar tendencias a lo largo del tiempo o para comparar variables categóricas. Se consideran una extensión natural del diagrama de dispersión donde los puntos se reemplazan con burbujas o discos.

Cómo: se dibuja una burbuja o un disco para cadah observación de un par de variables numéricas (A, B) posicionando, en un sistema de coordenadas cartesianas, el disco horizontalmente según el valor de la variable A y verticalmente según la variable B. Una tercera variable numérica © se representa mediante la área de la burbuja. Incluso puede incorporar un cuarto conjunto de datos (D: numérico o categórico) usando diferentes colores en diferentes burbujas.

La historia se narra a partir de la forma que generan estos puntos de datos, así como de las diferencias en los tamaños relativos de las burbujas o discos. Debe haber leyendas apropiadas para las distintas categorías representadas por los colores y algún tipo de escala que nos permita inferir el valor numérico indicado por el tamaño de la burbuja.

Fig. 1: Diagrama esquemático de un gráfico de burbujas. La figura fue desarrollada con Seaborn.

El gráfico anterior muestra una relación directa (positiva) entre la variable A y la variable B. El disco indicado en la posición (60, 225) es claramente un valor atípico. Las leyendas de la variable categórica y la escala para inferir el valor numérico de la tercera variable se ubican fuera del gráfico mediante la palabra clave bbox_to_anchor. Con esta palabra clave obtiene un alto grado de control para la colocación manual de leyendas; Recomiendo encarecidamente colocarlo en la ubicación superior derecha (Marplotlib.org, # 1).

Al igual que los diagramas de dispersión, tres características importantes del conjunto de datos se pueden encontrar en un gráfico de burbujas: 1.- Valores atípicos, pieza de datos que son muy diferentes de todos los demás en el conjunto de datos y no parecen ajustarse al mismo patrón. Estos valores anómalos pueden representar información valiosa para analizar; 2.- Brechas, un intervalo que no contiene datos. La visualización de brechas entre datos justifica un análisis en profundidad que explique su presencia; 3.- Clusters, grupos aislados de burbujas de datos que también pueden ameritar un análisis particular del motivo de su presencia en el gráfico. Previamente, se debe verificar que la existencia de outliers, brechas o clusters no se deba a errores en la metodología de recolección de datos.

El siguiente gráfico de burbujas describe la Prevalencia del retraso del crecimiento contra Acceso a servicios básicos de saneamiento en todas las regiones del mundo. Las investigaciones muestran que el saneamiento deficiente contribuye al retraso del crecimiento infantil y que los cerebros de los niños con retraso del crecimiento tienen menos conexiones neuronales que los niños que no lo padecen. A medida que la tecnología reemplaza los trabajos de rutina, aumenta la demanda de habilidades cognitivas avanzadas y una mayor adaptabilidad, incluso en los países en desarrollo. Sin embargo, los niños con retraso en el crecimiento estarán en desventaja con respecto a las habilidades que demandará el futuro mercado laboral. La prevalencia de burbujas amarillas en la parte superior izquierda del gráfico indica que la región de África subsahariana constituye un claro grupo de países donde millones de niños están creciendo sin futuras habilidades básicas para la vida. Dado que el tamaño de los discos corresponde a la población de la región, el gráfico también muestra la urgente necesidad de llevar un saneamiento seguro a millones de niños en el sur de Asia (The World Bank, 2018, # 2).

Fig. 2: Prevalencia del retraso en el crecimiento frente al acceso a los servicios de saneamiento básico en todas las regiones del mundo. Fuente: Banco Mundial, 2018.

Los gráficos de burbujas más famosos pertenecen a Charlas TED de Hans Rosling. Rosling (1948-2017) fue un médico y estadístico sueco, y profesor de salud internacional en el Instituto Karolinska. En sus TED Talks, él convirtió inmensos conjuntos de datos en historias visuales sobre el mundo, la economía y el futuro de la humanidad. Recomiendo encarecidamente ver su primer video de 2006: «Las mejores estadísticas que hayas visto» (n. ° 3) y «El río de los mitos» de 2013 (n. ° 4).

Consejos y advertencias (** & !!)

** Los gráficos de burbujas son apropiados cuando queremos mostrar relaciones entre tres o cuatro variables pero no sus valores exactos. Por ejemplo, en los negocios, puede tomar decisiones de inversión visualizando en un diagrama de burbujas las relaciones en dimensiones como costo, valor y riesgo entre diferentes alternativas comerciales.

!! Siempre debe verificar que la adición de la tercera o cuarta variable mejore la narración. Si no es así, intente cambiar a una representación alternativa más simple, como un diagrama de dispersión.

!! La principal desventaja de un gráfico de burbujas radica en el hecho de que la comparación entre las variables numéricas es notablemente difícil porque las indicamos con dos tipos de escalas diferentes: posición y tamaño. El cerebro humano reconoce fácilmente las posiciones, pero las áreas son más difíciles de comparar.

!! Tenga siempre en cuenta que el área de un disco no es proporcional a su radio, sino al cuadrado del mismo.

** No es obligatorio iniciar el plano cartesiano xy en (0,0). Debe elegir el origen de su sistema de coordenadas de acuerdo con la mejor historia que puedan contar sus datos (Ver Fig. 4).

!! A diferencia de los diagramas de dispersión, Los gráficos de burbujas no mejoran con el aumento del número de puntos de datos. En cambio, cada información obliga a la audiencia a calcular el tamaño de la burbuja correspondiente, y esto se vuelve aún más complicado si agregamos color para mostrar alguna variable categórica. Aunque podemos captar fácilmente las diferencias en el tamaño de las burbujas, no todos relatan inmediatamente que el área del disco es proporcional al cuadrado de su radio.

!! No deben usarse para la representación de valores cero o negativos ya que no hay áreas negativas o cero. Si tal representación es esencial, se sugiere usar círculos completos para círculos positivos y círculos vacíos para valores negativos. Analice siempre las alternativas antes de llegar a esta representación, como valores positivos en un color y valores negativos en un color muy diferente (azul contra rojo como la siguiente figura). Otra alternativa es ubicar la variable con valores negativos en uno de los ejes de coordenadas. Recuerde siempre que el uso descuidado de valores negativos con gráficos de burbujas puede confundir a la audiencia. Por ejemplo, un círculo para 100 y un círculo para -100 tendrán el mismo tamaño.

Fig. 3: Representación sugerida de valores negativos, cero y positivos. Figura realizada con Publisher 2010.

** Un aumento en el número de burbujas puede resultar en congestión y superpuesto. En tales casos, se deben utilizar alternativas translúcidas proporcionadas por la herramienta de visualización. Por supuesto, existe un grado de superposición por encima del cual las audiencias pueden confundirse, en particular con gráficos que tienen un gran número de burbujas o grupos de burbujas apretados. En ese momento, se recomienda utilizar una alternativa de visualización más sencilla.

** Para mostrar tendencias a lo largo del tiempo con gráficos de burbujas, debe colocar el tiempo como variable en el eje horizontal. Una alternativa es utilizar algún tipo de animación como Hans Rosling hizo en sus TED Talks (# 3 y # 4).

!! La necesidad de mostrar todo el gráfico en un tamaño «lógico» no permite una buena comparación de las diferencias de tamaño en los discos. Como resultado, las pequeñas diferencias entre ellos no son fáciles de visualizar.

Storytelling with Bubbles: calidad de un vino blanco

A nivel mundial, se produjeron 250 millones de hectolitros de vino en 2017. España es líder mundial en ventas de vino, con 22,8 millones de hectolitros en 2018 (Observatorio Español del Mercado del Vino, 2019). A España le siguen de cerca Italia (21,4 millones), Francia (15,4) y, a mayor distancia, Chile (9,8) y Australia (8). Sin embargo, en términos de ingesta per cápita, Portugal es el país líder en el mundo. Los portugueses, con sus más de 51 litros por persona y año, consumen el doble que los españoles.

El vino es un caso particular dentro del sector de la alimentación y bebidas, según opinión experta, especialmente la del llamado gurús, tiene una gran influencia en el mercado del vino al generar prototipos o modelos de calidad entre los consumidores. La percepción de la calidad del vino está ligada a las características del producto. Las propiedades organolépticas del vino (aroma, sabor, color, sabor o sensaciones táctiles) son evaluadas por jueces, expertos o profesionales del vino como un atributo único multidimensional en una escala con anclas de “baja calidad” y “alta calidad”. en los extremos izquierdo y derecho.

Dado que los consumidores habituales de vino carecen del conocimiento y la experiencia de gurús y profesionales, es importante poder establecer parámetros cuantitativos que ayuden al consumidor a tomar decisiones sobre la compra de una botella de vino.

Imagen de Blake Barlow de Unsplash

Un interesante Concurso Kaggle se relacionó con la exploración de la calidad del vino y el análisis de las variantes tinto y blanco del vino portugués «Vinho Verde».

Los datos están disponibles en https://archive.ics.uci.edu/ml/datasets/Wine+Quality e incluye once propiedades químicas y físicas de 1500 vinos blancos y 1500 vinos tintos. El propósito del proyecto fue evaluar cuál de las siguientes propiedades químicas o físicas influyen en la calidad de los vinos: acidez fija, acidez volátil, ácido cítrico, azúcar residual, cloruros, dióxido de azufre libre, dióxido de azufre total, densidad, pH, sulfatos y alcohol. El conjunto de vinos fue evaluado por tres expertos que proporcionaron puntajes de calidad entre 0 (Malo) y 10 (Excelente) para cada vino.

Tabla 1: Primeros cinco registros del conjunto de datos del vino.

Al final del estudio, no estaba claro qué diferenciaba un vino de baja calidad de uno de calidad media, solo diferencias sutiles en los vinos de alta calidad según algunas propiedades químicas. Una limitación importante fue la ausencia de una cantidad significativa de vinos de baja calidad en el conjunto de datos. En conclusión, quedó claro que la calidad de un vino dado es el resultado de una complicada combinación de varias propiedades químicas.

Sin embargo, decidimos recuperar el archivo y utilizar algunas técnicas de visualización de datos para aportar algunos conocimientos sobre un tema tan complejo. Teniendo en cuenta que la calidad era el atributo fundamental de nuestro objeto en estudio, después de muchas pruebas y muchos gráficos, llegamos al siguiente gráfico de burbujas:

Fig. 4: Relación entre calidad, alcohol, azúcar residual y dióxido de azufre libre para el vino portugués “Vinho Verde”. La figura fue desarrollada con Seaborn.

Aalcohol, representado en el eje horizontal, se refiere al grado alcohólico del vino. Este parámetro viene determinado por múltiples factores: la variedad de uva, el momento de la vendimia y los procesos de fermentación que se producen posteriormente, así como los tratamientos posteriores.

La uva contiene unos doscientos gramos de azúcares por litro de mosto y es una mezcla de glucosa y fructosa. Cuando se fermenta, el azúcar desaparece en gran medida, dejando lo que los enólogos llaman azúcares residuales. El contenido de azúcar residual de los vinos es normalmente el resultado de una fermentación interrumpida (en la que la levadura muere o no puede consumir el azúcar restante). Las etiquetas de las botellas de vino suelen indicar la cantidad de azúcar residual.

La industria del vino utiliza dióxido de azufre por sus propiedades antioxidantes y antimicrobianas y para prevenir cambios de color, especialmente en vinos blancos. El uso de dióxido de azufre se ha convertido en un tema controvertido debido a la documentación gradual de reacciones adversas en los consumidores, que pueden tener alergias leves a …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

h3dwBWPzWqgYUeJ5xfubxU 1200 80

La mejor GPU de minería para 2021: las mejores tarjetas gráficas para minar Bitcoin, Ethereum y más

social og oracle logo default 1200x628

Sistema de gestión de contenidos y gestión de activos digitales