Visualización de datos - Algunos problemas comunes

 

El mundo moderno se guía cada vez más por los datos y las decisiones basadas en ellos. Continuamente se extrae nueva información en aras de la inferencia y la comprensión. Sin embargo, los datos pueden tergiversarse o malinterpretarse con facilidad. Las herramientas de visualización de datos como gráficos, diagramas, animaciones, etc. son una forma esencial de representar y transmitir hojas de cálculo llenas de datos monótonos. Convertir un conjunto de datos en una versión resumida de sí mismo puede resultar engañoso en ocasiones. Hemos recopilado una lista de algunos de los errores más comunes que vemos en la visualización de datos, incluidas tácticas a veces intencionadas para engañar al espectador. Esperamos ayudarle a comprender mejor algunos problemas comunes de la visualización de datos.

El delincuente obvio

Todos lo hemos oído. "El eje está roto". Este ejemplo de tergiversación de datos es la versión por excelencia de cómo la visualización de datos puede ser engañosa. A veces este enfoque visual está bien justificado, pero en otras circunstancias puede utilizarse maliciosamente para influir en el espectador. La principal conclusión de este tipo de truco de visualización de datos es que el eje de un gráfico muestra la magnitud relativa de los datos y puede manipularse como tal. Tomemos, por ejemplo, los dos gráficos siguientes de callingbullshit.org:

Dos gráficos de barras que comparan los mismos datos con diferentes escalas del eje Y para ilustrar cómo la manipulación de los ejes puede inducir a error a los espectadores sobre la magnitud de los datos.

Uno podría reaccionar ante el primer gráfico con las conclusiones de que Rumanía y el Reino Unido trabajan diligentemente, mientras que Italia y Francia son los más perezosos de la UE. Y a juzgar por las magnitudes relativas de este gráfico de barras, alguien podría incluso deducir falsamente que los rumanos trabajan 4 veces más que los franceses. Sin embargo, esto es obviamente falso y la naturaleza de la desinformación es que el eje del gráfico de la izquierda empieza en 36 horas. El gráfico de la derecha es una representación más exacta de las diferencias relativas y muestra exactamente los mismos datos, pero es menos engañoso (y posiblemente mucho menos interesante visualmente).

Los gráficos de tarta no son tan dulces

Aunque los gráficos circulares son fantásticas herramientas de visualización de datos para mostrar la representación relativa de un todo mayor, en general deben evitarse cuando se comparan cambios de datos entre eventos o se comparan muestras relativamente cercanas.

Resulta que los humanos somos malos leyendo ángulos, especialmente detectando pequeños cambios entre dos ángulos diferentes. La imagen siguiente (de data-to-viz.com) puede parecer tres gráficos circulares idénticos, pero si se examinan con más detenimiento, en realidad son ligeramente diferentes. A modo de explicación, cada gráfico circular representa una comparación de muestras de datos (un único gráfico circular) tomadas en diferentes intervalos de tiempo (cada gráfico circular representa un día diferente, por ejemplo).

Veamos ahora el siguiente gráfico de barras, que es una representación visual diferente de exactamente el mismo conjunto de datos.

En los gráficos de barras, no sólo son más evidentes los datos de comparación entre muestras, sino que el cambio entre las mismas muestras a intervalos diferentes es significativamente más evidente. Aunque se podría argumentar que el etiquetado de los datos en el gráfico circular podría aliviar parte de la confusión entre los distintos gráficos, esto va más allá del objetivo del argumento. El argumento es que hay formas mucho mejores de trazar datos comparativos o series temporales que pueden ofrecer una representación visual más clara y concisa que un gráfico circular.

Resolución de datos

Aunque la representación gráfica de los datos con respecto al tiempo es fundamental para comprender las tendencias, los intervalos de tiempo a menudo pueden estar mal representados. Condensar los parámetros no constantes en secciones fáciles de digerir puede influir negativamente en la visualización de los datos y provocar un sesgo negativo de simplificación excesiva.

Un ejemplo magnífico es trazar las métricas contables en "meses" en lugar de semanas (donde cada tres meses se considera a menudo un mes de 5 semanas, ya sea al principio o al final de un trimestre fiscal). Hacerlo puede sobrevalorar ciertos puntos de datos cuando una mayor resolución de su eje puede mostrar tendencias de datos completamente diferentes.

La siguiente imagen muestra los datos trazados a partir del mismo conjunto de fuentes, pero variando la resolución del eje x. Hay tres magnitudes diferentes de crecimiento (pendiente de la línea de tendencia). Hay tres magnitudes diferentes de crecimiento (pendiente de la línea de tendencia), lo que podría tener un impacto drástico en las métricas de previsión cuando se observan a microescala, dado que el "Mes 3" es el mes de 5 semanas. Si se representa día a día, no se observa crecimiento en el conjunto de datos aleatorios. Cuando se representa semana a semana, el conjunto de datos muestra una tendencia negativa a pesar de que la semana final es la más alta registrada. Y cuando se representa mes a mes, la línea de tendencia muestra un crecimiento, aunque esto no es sorprendente dado el peso adicional del mes 3.

Esta tendencia está vagamente relacionada con la paradoja de Simpsons, que es cuando una tendencia aparece en diferentes subconjuntos de datos pero desaparece o se invierte cuando se combinan los grupos. Con cualquier gran conjunto de datos que muestre tendencias, asegúrate de observar siempre los datos dentro de grupos diferentes o más grandes para evitar una representación errónea de las tendencias de los datos.

Éstos son sólo algunos de los retos que nos plantea la visualización de datos. Háganos saber cuáles son sus gráficos y diagramas engañosos favoritos. Nos encantará verlos. Escríbenos a sales@NimbleGravity.com.

¿Listo para construir lo que realmente importa?

Hablemos