Ciencia de datos: ¿Quo Vadis?

Por: Ledys Izquierdo MD MSc

          Es práctica común que cuando una disciplina científica evoluciona con conocimiento nuevo o como tecnología en desarrollo o como técnica aplicada, casi de inmediato y sin respaldo teórico ni académico se declara la insuficiencia, la limitación y la obsolescencia de otras ciencias, artes o métodos relacionados con las áreas científicas en auge. Las innovaciones derivadas del conocimiento y la aplicación de sus tecnologías tienden a desplazar algunos métodos tradicionales, lo que no se convierte en óbice, para reconocer que las formas estructuradas de conocimiento, no solo aportan como la base fundamental, sino como componente de una ciencia en expansión, y también como extensión de las mismas.

         El avance de las tecnologías y técnicas enmarcadas dentro de la ciencia de datos a creado una especie de discrepancia entre estadísticos y científicos de datos, que bien podría definirse en el marco del alcance y relevancia de cada disciplina.  Con frecuencia observamos cómo se generan desacuerdos entre matemáticos-estadísticos vs nuevos analistas en ciencias de datos intentando defender desde el punto de vista de cada disciplina el análisis de los datos. Al efecto, el Estadístico dice: “¿Cómo es «ciencia» un algoritmo, si no pueden explicar los diseños de sus modelos?”  en tanto el Nuevo Científico de datos dice: “las preguntas típicas en la nueva ciencia de datos son: de un vistazo a este conjunto de datos: ¿qué sentido se le puede dar? – ¿Existe alguna estructura en el conjunto de datos? ¿Pueden estas características ayudar a predecirlas?”

         El Estadístico dice: “Los algoritmos son solo otro tipo de inferencia estadística, que defienden la ignorancia científica”, “un modelo matemático adecuado es el mejor formato de conocimiento” en tanto el Nuevo científico de datos dice: “La ciencia de datos es como el viajero que se enfrenta a lo que se le presenta en el camino, ayudar al viajero a comprender los datos es la tarea del análisis de datos”, “Un científico de datos encuentra respuesta sin hacerse preguntas”.

Recurso 3

         Algunos tratadistas de la estadística, entendiendo esta ciencia como un todo en evolución, han llegado a pedir que la estadística se renombre como ciencia de datos y al estadístico como científico de datos [1]. Otros, se enfocan en revalidar las competencias estadísticas dentro de la explosión del Big Data, es decir, prepararse para entender las nuevas formas de pensamiento computacional, que permitan a la estadística servir como medio de control en la identificación de patrones, en la correlación de variables y en la causalidad de las mismas, lo que no es otra cosa que, extraer los mejores datos; limpios, aleatorios y representativos en tamaño acorde a lo que se investiga.

          Ahora bien, la estadística genera conocimiento de los datos a través de modelos matemáticos adecuados y probados, pero su límite puede estar en que los datos son tomados de la superficie [1,2], la ciencia de datos utilizando técnicas de minería de datos, recaba en la profundidad, explora y examina grandes volúmenes de datos; estructurados, o no estructurados, de fuentes variadas y desconectadas, con el propósito manifiesto de hacer predecible el futuro [2,3].

          En este sentido la estadística guarda un acervo teórico autónomo, al tiempo que es un componente fundamental de la ciencia de datos, junto con las ciencias de la computación y las matemáticas. Así, Data analytics y Data scientist, son nominaciones más que complementarias, siendo la primera una especie de transición de la segunda. Donde el científico de datos puede ser también un estadístico que conoce las diferentes interfaces de programación y métodos analíticos novedosos como modelos de aprendizaje autónomo y automático y, el diseño de algoritmos.   

¿Pero cómo se define ciencia de datos? la fórmula de la disciplina basada en ciencia de datos (CD) está dada por [1]:

CD = estadística + informática + computación + comunicación + sociología + administración + |datos + el entorno + pensamiento, (1)

Los últimos 50 años desde la propuesta del concepto “ciencia de datos” han contribuido a la aceptación progresiva y ahora generalizada de la necesidad de una nueva ciencia y su conceptualización inicial a través de su transición y transformación de la estadística a la fusión con otras disciplinas y otros campos existentes. Los próximos 50 años de ciencia de datos se extenderán más allá de las estadísticas para identificar, descubrir, explorar y definir problemas científicos fundamentales específicos y grandes desafíos. Construirá una familia sistemática de metodologías, métodos científicos, sistemas disciplinarios y planes de estudio autónomos que no son simplemente una “ensalada” re-etiquetada, mezclando componentes disciplinarios existentes [1,4].

          Los resultados de búsqueda de Google durante los últimos 10 años indican que, Big Data ha tenido un interés significativo desde 2012 a 2015 y luego menos movimiento; sin embargo, el interés en la ciencia de datos y el análisis de datos ha aumentado constantemente. El análisis de datos a mantenido una atracción relativamente estable para los motores de búsqueda durante estos 10 años [1].

Recurso 2

Tendencia de búsqueda de palabras en Google

          A modo de Conclusión todo lo que nos rodea genera datos casi sin límites, siendo increíble que la producción de los mismos nos hace crecer a un ritmo cada vez más acelerado, obligándonos a entender a la sociedad en un contexto, en el que el requisito es «pensar con datos», «administrar datos», «calcular con datos», «extraer datos», «comunicarse con datos», «entregar datos» y «tomar medidas con los datos”.

Recurso 1

          La ciencia de datos genera brechas significativas que se expresan en nuestra madurez organizacional, educación y capacitación, los problemas van desde la extracción misma de los datos hasta en los modelos matemáticos aplicados para su análisis. La brecha se reduce en tanto la discusión entre estadísticos, matemáticos, ingenieros, arquitectos de datos, y científicos de datos, acepten la naturaleza transdiciplinaria de la ciencia de datos. Además, del trabajo en equipo para construir nuevo conocimiento, nueva ciencia, o nueva teoría, se requieren habilidades creativas y comunicativas que permitan que los datos se puedan visualizar en diferentes estructuras y contextos.  Estas nuevas realidades son desafiantes no solo para el negocio, sino también para la educación, especialmente cuando las necesidades de competencias están cambiando tan rápidamente.

          Hoy en día, la importancia y la innovación de la analítica se reconocen mejor que en cualquier otro momento. Las últimas cuatro décadas han mostrado que los datos pequeños y simples usados a nivel organizacional, presentan limitaciones porque se obtienen de una fuente única, no siempre son aleatorios, ni representativos y, suelen ser intuitivos, estos datos finalmente impiden que las decisiones sean efectivas y eficientes. El paso al análisis de datos grandes busca dar respuesta a todo tipo de problemas, incluso los de mayor complejidad. En el fondo, se trata de encontrar certeza predictiva, la realidad nos muestra que estamos pasando de la era explicita de la estadística como fuente de poder y control, a la era implícita en el análisis de los datos que se centra en la analítica profunda, que requiere de una fuerte estructura ética, y que nos facilite la voluntad de elegir, y no solo, nos diga que hacer.

Referencias

  1. Longbing Cao. Data science: A comprehensive overview. ACM Computing Surveys, 50(3), 43:1-42,2017, DOI:http://doi.org/10.1145/3076253
  2. Liu. From Statistics to Data Mining: A Brief Review,2020 International Conference on Computing and Data Science (CDS), Stanford, CA, USA, 2020, pp. 343-346.doi: 10.1109/CDS49703.2020.00073.
  3. Ribeiro, A. Rocha, R. Peixoto, F. Portela and M. F. Santos. Importance of Statistics for Data Mining and Data Science. 2017 5th International Conference on Future Internet of Things and Cloud Workshops (FiCloudW), Prague, Czech Republic, 2017, pp. 156-163.doi: 10.1109/FiCloudW.2017.86.
  4. R. Ahmed, M. Faizan and A. I. Burney. Process Mining in Data Science: A Literature Review.  2019 13th International Conference on Mathematics, Actuarial Science, Computer Science and Statistics (MACS), Karachi, Pakistan, 2019, pp. 1-9.doi: 10.1109/MACS48846.2019.9024806

Publicado por Samuel Pimienta MD MSc

Médico, MSc en Informática Educativa por la Universidad de La Sabana. Diseñador pedagógico y creador de sistemas digitales de aprendizaje en ciencias de la salud para uso virtual, presencial o híbrido. Sistemas digitales inteligentes de enseñanza en medicina, desde el currículo, pedagogía y tecnología digital.

2 comentarios sobre “Ciencia de datos: ¿Quo Vadis?

  1. Buen punto de vista Dra.Izquierdo, pareciera que todos entendiéramos que es necesaria la transdisciplinariedad en la ciencia de datos, pero en la realidad si se observa esta rivalidad y está discrepancia de conceptos. En la medida en que logremos mejorar nuestros egos, mejoraremos los avances de la IA.

    Me gusta

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: