Visualización del Análisis Exploratorio de Datos (EDA)

Luis Eduardo Pino V, Andrés Eduardo Rico Carrillo

Es necesario recordar que el análisis de datos es un proceso que tiene por objeto obtener conocimiento a partir de la extracción de datos de valor de una muestra, aplicando técnicas cuantitativas y cualitativas para dar respuesta a preguntas específicas y facilitar la toma decisiones informadas.

La analítica de datos agrupa, segmenta, clasifica y predice cuales escenarios son más probables, mediante el procesamiento de datos estadísticos y matemáticos. Las metodologías de analítica incluyen varios tipos de análisis:

  • Exploratorio de datos o tratamiento estadístico de una muestras de datos.
  • Análisis descriptivo, agrupación o segmentación de datos desde diferentes perspectivas.
  • Análisis predictivo, que permite extraer datos para configurar modelos predictivos con valores futuros de las variables de interés.

La visualización de datos es la representación gráfica de los mismos y de la información obtenida.

La visualización de los datos.

La visualización de datos hace parte de la ciencia de datos y de la arquitectura de presentación de datos y tiene la finalidad de facilitar la comprensión y aprovechamiento de los datos, mediante la identificación, localización y manipulación de los mismos. Las herramientas de tratamiento y visualización permiten la identificación de patrones, tendencias y valores atípicos en grandes volúmenes de datos, que de otro modo habrían pasado desapercibidos.

Esta transformación de la información a un formato visual, se realiza posterior a la recopilación, procesado y modelado de los datos.  Es una forma efectiva para obtener conclusiones y entregar datos de la manera más eficiente posible, para que el conocimiento entonces sea universalizable, útil y memorizable.

El gran volumen de datos de un repositorio o big data, hace difícil y lento el clasificar y marcar de manera manual los datos (preprocesamiento de datos), es por esto que los modelos de machine learning permiten la clasificación y marcado y requieren de la visualización para evaluar fácil y rápidamente los resultados de este proceso.

La visualización de big data requiere potentes sistemas informáticos para: recopilar, procesar y traducir los «output» numéricos en representaciones gráficas que facilitan:

  • Obtener una perspectiva general de los datos de manera rápida y fácil. 
  • El análisis avanzado por razones similares.
  • Monitorear los resultados de los modelos de  algoritmos de análisis predictivo (machine learning o ML).

La precisión de la visualización de big data será directamente proporcional a la calidad y veracidad de la información que se posee, por esto, es esencial contar con un equipo transdisciplinario que incluya a analistas de  datos, especialistas en visualización de datos, estadísticos y expertos en la ciencia de datos, para gobernar y controlar la calidad de los datos, metadatos y fuentes de datos.

Hay reglas generales para la visualización de datos, a saber:

  1. Eje del tiempo. Al aplicar el tiempo en los gráficos, configúrelo en el eje horizontal. El tiempo debe correr de izquierda a derecha. No omita valores (períodos de tiempo), incluso si no hay valores.
  2. Valores proporcionales. Los números en un gráfico (que se muestran como barras, áreas u otros elementos medidos físicamente en el gráfico) deben ser directamente proporcionales a las cantidades numéricas presentadas.
  3. Relación tinta-datos. Elimine cualquier exceso de detalles, líneas, colores y texto de un gráfico que no agregue valor.
  4. Clasificación: En gráficos de columnas y barras, para permitir una diferenciación/comparación más fácil, ordene sus datos en orden ascendente o descendente por el valor, no alfabéticamente. Esto se aplica también a los gráficos circulares.
  5. No se necesita una leyenda si solo tiene una categoría de datos.
  6. Etiquetas. Use etiquetas directamente en la línea, columna, barra, pastel, etc., siempre que sea posible, para evitar la búsqueda indirecta.
  7. Colores: En cualquier gráfico, no use más de seis o siete colores. Otras recomendaciones:
    1. Para diferenciar el mismo valor en diferentes períodos de tiempo, use el mismo color en una intensidad diferente (de claro a oscuro).
    1. Para categorías distintas, utilice colores diferentes. Los colores más utilizados son el blanco, el negro, el rojo, el verde, el azul y el amarillo.
    1. Conserve la misma paleta de colores o estilo para todos los gráficos de la serie, y los mismos ejes y etiquetas para gráficos similares para que sus gráficos sean coherentes y fáciles de comparar.
    1. Examine cómo se verían sus gráficos cuando se imprimieran en escala de grises. Si no puede identificar las diferencias de color, debe cambiar el tono y la saturación de los colores.
    1. Del siete al diez por ciento de los hombres tienen una deficiencia de color. Tenga esto en cuenta al crear gráficos, asegurándose de que sean legibles para personas daltónicas.
    1. Complejidad de datos. No agregue demasiados detalles a un solo gráfico. Si es necesario, divida los datos en dos gráficos, resalte, simplifique los colores o cambie el tipo de gráfico.

Las herramientas de visualización pueden permitir la construcción de paneles de control que automáticamente rastrean indicadores clave de rendimiento (Key Performance Indicators o KPIs) y visualizan su comportamiento con respecto a variables como el tiempo o el espacio y se pueden sumar facilidades interactivas y alarmas.

Uno de los procesos más importantes dentro del EDA es el de visualización de datos y una de las primeras herramientas con las que se contó y que aún sigue siendo una herramienta común para la visualización de datos es la hoja de cálculo de Microsoft Excel; últimamente se generan a través de librerias de visualización de los lenguajes y herramientas de programación, por ejemplo: Python con Matplotlib, Seaborn y Plotly, en un rango que comprende formas simples como histogramas,  tablas, gráfico de barras o gráfico circular, pero no se limitan a ellas. También se dispone de técnicas más complejas, que incluyen: nubes de burbujas, gráficos de viñetas, mapas de calor, gráficos de línea de tiempo, gráficos lineales, gráfica de área, gráficos de dispersión (puntos de datos y su relación respecto a dos variables representadas en ejes X o Y), mapas de árbol (datos jerárquicos en un formato anidado, varias categorías (comparar diferentes partes de un todo), pirámides (mostrar distribución), mapa coroplético (áreas geográficas a las que se les asigna un color en relación con una variable numérica).

Herramientas para la visualización de datos: IBM Cognos Analytics,  Microsoft Power BI, Oracle Visual Analyzer, D3.js, Jupyter, Google Charts.

Algunos gráficos recomendados para los diferentes tipos de variables, son: (los ejemplos son de Matplotlib)

b. Pairplot: combina scatter plots e histogramas individuales para todas las variables numéricas

2. Cualitativas / Categóricas
Análisis Univariado
a. Countplot: visualiza las distribuciones    

Análisis Cuantitativo Vs Cualitativo
a. Boxplot o violinplot  
b. Stripplot o swarmplot                                           
c. Barplot
d. Pointplot

e. Lineplot: ayuda a ver tendencias (variables de tiempo deben ir en el eje X)                      
f. Catplot o factorplot: permite analizar una cuantitativa a traves de 2 categoricas con una de ellas teniendo un mayor numero de categorias.               

Es importante hacer una buena visualización de variables para lograr un mejor preprocesamiento, que es la clave para modelos de alto desempeño y generalizables. En nuestras siguientes columnas trataremos sobre el manejo de los outliers y datos perdidos entre otros temas. Los esperamos.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: