En Busca de la mejor herramienta para hacer el análisis de datos.

Por: Andres Rico. AIPOCRATES.

En esta entrega, empezaremos una serie de escritos en donde mencionaremos conceptos básicos como el valor de alfa, error tipo I y el valor de beta, error tipo II, aprendizaje de máquina, aprendizaje profundo o Deep Learning, Machine Learning supervisado, Data Set de entrenamiento, validación y prueba.

El objetivo es comparar la estadística y el aprendizaje de máquina como estrategias para la evaluación de los datos.

Gráfica 1. Implementación de los modelos de Inteligencia articficial

La posibilidad de aplicar la inteligencia artificial estrecha en cada uno de los pasos referidos en la gráfica 1, se hace confusa, puesto que su utilidad es amplia tanto en el diseño y construcción de las mismas, como en su implementación, por ejemplo:

  1. En la recolección de datos a través de NPL (conversión de voz a texto, de texto a voz, de imagen a texto y viceversa y construcción de textos).
  2. En la preparación o pre-procesamiento de datos por esquema de limpieza de datos (manejo de valores perdidos, valores de ruido en la data, normalización de los datos), esquemas de reducción (selección de características, extracción de características) e inclusive el aumento artificial de datos.
  3. En el análisis de los datos.
  4. En la construcción de modelos, durante la fase de entrenamiento de los algoritmos de Machine Learning, especialmente de Deep Learning, en donde se pueden emplear algoritmos de aprendizaje por reforzamiento o auto aprendizaje, para el ajuste de los parámetros; siendo estos ajustes, calibraciones de las operaciones matemáticas que provocarán la activación o no del nodo (neurona artificial) y determinar así el curso del vector de procesamiento, para generar el output, el objetivo de estas estrategias es disminuir la necesidad de tiempo humano en la calibración del modelo y  reducir la posibilidad del subentrenamiento (underfitting) o el sobre entrenamiento (overfitting) del modelo, lo que dificultaría la generalización de la aplicación.

Las herramientas de aprendizaje de máquina, no supervisada, supervisada o por reforzamiento, pueden ser utilizadas como métodos de Machine Learning clásico o profundo, dependiendo de la necesidad a solucionar.

Nos enfocaremos en estrategias para el análisis de los datos, teniendo como referente el artículo de Los doctores JJ Lin y X Tong, “Statistical Hypothesis Testing versus Machine Learning Binary Classification: Distinction and Guidelines” (2020) (1), en el cual se plantea una controversia: ¿cuál es la mejor herramienta para el análisis de los datos: la estadística o el Machine Learning?

La respuesta a esta  pregunta, en este momento, no sólo concierne a los estadísticos y epidemiólogos, sino a una nueva disciplina que está surgiendo denominada “ciencia de datos“.

ráfica 2. Disciplinas involucradas en la ciencia de datos. Tomado de @ingliguori en Twitter

G

Dos estrategias se pueden utilizar en el análisis de datos:

  • La prueba de hipótesis a través de los métodos estadísticos clásicos o
  • La clasificación binaria a través del aprendizaje de máquina.

Las diferencias claves entre estos dos métodos, son: La relación entre los datos y las decisiones binarias, la construcción de las reglas de decisión y los criterios de evaluación (1).

Para diferenciarlas, debemos recordar algunos conceptos básicos: la prueba de la hipótesis, tiene como objetivo la inferencia, es decir a través de unos datos observados inferir una verdad desconocida. Esto se logra a través de la “significancia estadística“, donde por medio de operaciones matemáticas se calcula la posibilidad de que la hipótesis nula sea o no verdadera, lo cual permite inferir qué tan probable o improbable es que los datos observados sean generados por la hipótesis nula (1).

La clasificación binaria, tiene por objetivo la predicción, predecir una propiedad no observada en un elemento u objeto, basada en las características disponibles de ese objeto. Esto se hace a través de unas reglas de predicción establecidas por la data disponible y designadas por intervención humana o un algoritmo entrenado específicamente en esta tarea (1).

Para la “clasificación binaria” se requieren algoritmos del tipo “aprendizaje supervisado”, para que los datos de entrenamiento estén marcados para predecir los desenlaces y que sean representativos de las características que se van a evaluar. Es importante decir que las reglas de predicción aprendidas por los algoritmos desde la data de entrenamiento pueden no necesariamente revelar una verdad científicamente comprobada, pero si pueden predecir los desenlaces para los cuales se entrenaron. Los Drs Li y Tong, dan como ejemplo, que el algoritmo puede predecir la llegada del otoño, sin embargo no causa la llegada del otoño (1).

Gráfica 3. Tipos de Algoritmos de aprendizaje supervisado. Tomado de @ingliguori en Twitter.

Las fases para el análisis de datos, son: la formulación conceptual de las preguntas, el procesamiento del dato en donde se contruye la regla de decisión y las conclusiones donde se realizan las decisiones binarias. En futuras publicaciones profundizaremos en cuatro conceptos que están inmersos en estas fases: las preguntas binarias, las respuestas binarias, las reglas de decisión y las decisiones binarias (1).

Referencia Bibliográfica

  1. Jingyi Jessica Li, Xin Tong. Statistical Hypothesis Testing versus Machine Learning Binary Classification: Distinctions and Guidelines. Patterns,Volume 1, Issue 7, 2020. 100115. ISSN 2666-3899, https://doi.org/10.1016/j.patter.2020.100115.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: