El impacto de los  Lenguajes de Gran Escala y otras tecnologías, basadas en inteligencia artificial, en el mercado laboral.

Ricardo A. Pena MD, PhD. Profesor Asociado, Facultad de Medicina. Universidad de los Andes
Twitter: @DrRicardoPena

El lenguaje con el que nos comunicamos día a día en su sistema complejo de símbolos escritos y hablados que utilizamos para comunicarnos entre humanos. Creemos que el lenguaje en los humanos se desarrolló hace más o menos 50.000 años [1] y gracias a este avance fuimos capaces de crear complejas representaciones de nuestro mundo interno y externo. A grandes rasgos podemos decir que hay varias cualidades del lenguaje que explican su complejidad [2]:

  • El lenguaje es arbitrario, los símbolos no deben tener una conexión directa con su significado. ¿Por qué el número 2 se escribe cómo se escribe? ¿Cambia el significado si en vez de escribir 2 escribimos II?
  • El lenguaje es una evolución un fenómeno social que nos ayuda a desarrollar y establecer culturas y relaciones
  • El lenguaje es un sistema simbólico compuesto de diferentes símbolos que representan ideas objetos o conceptos
  • El lenguaje sistemático lo cual quiere decir que los símbolos que lo componen se organizan de una manera determinada para que sean entendibles
  • El lenguaje se vale de un simbolismo vocal y verbal, soportado por un complejo sistema fisiológico que nos permite articular sonidos
  • El lenguaje no es intuitivo, por lo que aprender nuevos idiomas nos puede tomar bastante tiempo mientras aprendemos las reglas particulares que los componen
  • El lenguaje nos permite producir y ser creativos utilizando símbolos básicos para construir nuevos conceptos o elementos
  • El lenguaje puede ser utilizado como un sistema de comunicación que nos permite interactuar con otros seres humanos
  • El lenguaje es único complejo y modificable, evoluciona a lo largo del tiempo y cambia con las diferentes culturas

Este corto resumen de cualidades nos permite ver la difícil tarea que es estudiar la evolución y el desarrollo de los lenguajes, a pesar de que en nuestro día a día el uso del lenguaje es tan natural como respirar.

Para entender la complejidad del lenguaje durante las últimas décadas hemos aprovechado la evolución de las ciencias de la computación y la rapidez con la que un computador puede realizar cálculos matemáticos y encontrar relaciones entre diferentes elementos. Para esto se han desarrollado diferentes métodos dentro de los cuales resalta el procesamiento del lenguaje natural (PLN). El PLN utiliza elementos de lingüística, ciencias de la computación e inteligencia artificial, para estudiar las interacciones entre los computadores y el lenguaje humano [3]. El PLN en particular busca aprovechar la eficiencia de cálculo de un computador para poder procesar la estructura y contenido del lenguaje (ya sea hablado o escrito), para encontrar patrones y predecir desenlaces o relaciones probables. Gracias a la evolución del PLN es que tenemos aplicaciones que pueden rápidamente traducir un texto con altísima efectividad (Google translate), o dispositivos que pueden interpretar la manera en que nosotros hablamos para ejecutar tareas puntuales (asistentes como Siri, Alexa o Google Assistant).

El avance en la inteligencia artificial y en especial del aprendizaje profundo (deep learning) ha permitido el desarrollo de lo que llamamos lenguajes de gran escala (LLMs). Estos modelos se entrenan con gigantescas (terabytes de información) y variadas (multitud de fuentes) cantidades de texto, para que aprendan a reconocer patrones y estructuras del lenguaje humano. Su fin, de forma simplista, es ayudarnos a encontrar la mejor relación entre dos piezas de lenguaje (una pregunta y una respuesta y acción, por ejemplo). Para encontrar y reportar la relación más probable, el LLM compara la estructura y el contenido de las palabras (tokens) que se encuentran en un objeto (como una pregunta), con la estructura y contenido de los tokens de las grandes bases de datos con que ha sido alimentada.

Intentemos acercarnos a la función de estos modelos con un muy sencillo ejemplo

Frase:                        “Dejé mis llaves en la mesa de la cocina”

Pregunta:                  ¿Dónde están mis llaves?

El modelo del lenguaje interpreta la gramática y sintaxis de la información que tiene almacenada. Compara esta estructura con la información que acaba de recibir, en este caso extrae de la frase las acciones, objetos, lugares y posibles relaciones entre tokens. Ese proceso también se repite para la pregunta, y luego encuentra relaciones entre elementos comunes (como las llaves) y lugares (“dónde” y “cocina”) para al final poder reportar que las llaves están en la cocina. Como respuesta construye una frase que, según su estructura de lenguaje, expresaría de mejor forma la relación entre lo que se desea saber y la solución.

Chat GPT-4 Es un muy avanzado modelo amplio de lenguaje que está soportado en un modelo avanzado de procesamiento de información (Generative Pre-trained Transformer – GPT) de OpenAI [4]. En particular, chat GPT tiene una gran capacidad de procesar lenguaje en múltiples idiomas, dialectos y temas. Por esta razón es posible hacer preguntas al chat y solicitar que responda con diferentes formatos (prosa, verso, canciones, rimas) en diferentes idiomas, dialectos (paisa, rolo, argentino, mexicano) o niveles de complejidad del lenguaje.

Como modelo sus respuestas replican el lenguaje, esto quiere decir que responde a una pregunta con los elementos más probables de una base de datos, organizando sus tokens (símbolos) de manera que estén organizados con la estructura que se ha solicitado. Es importante tener en cuenta que el lenguaje puede lucir correcto, pero el contenido podría tener fallos. Cuando a Chat GPT (versión 3.5) se le solicitaba por referencias, el modelo generalmente colocaba citas con una estructura correcta (autores, título, revista, año de publicación, páginas, etcétera). Sin embargo, cuando uno iba a chequear la precisión de las citas se da cuenta que muchas veces estas no existían. Simplemente lucían correctas porque estaban expresadas con una estructura de lenguaje adecuada.

Crear lenguaje que luce correcto, puede venir acompañado de otros problemas. Si por ejemplo una persona (María) publica bastante en un tema particular (carros voladores), la probabilidad de que el modelo relacione el nombre con el tema es bastante alta. Al solicitar al GPT que cree un documento acerca de “carros voladores” con referencias, el modelo creara respuestas con piezas de información más probablemente relacionadas con el tema, incluido el nombre “María”. Así que es posible que se genere una referencia falsa pero que incluye el nombre de una persona real, con el nombre de una revista real. Esto podría llegar a comprometer el nombre o integridad de una persona al relacionarla con un material que no existe. Algunos de estos problemas vienen siendo arreglados y en la versión 4.0 de Chat GPT, aunque no conocemos como fue entrenada, puede ser más precisa en el momento de incluir referencias y citas.

Chat GPT, y en el futuro cercano otros LLMs como BARD, tienen la capacidad de ayudarnos a procesar lenguaje, lo cual es una tarea muy común en nuestro día a día. Estos modelos amplios de lenguaje pueden llegar a ser utilizados para crear soluciones eficientes y precisas, y reemplazar a los humanos en muchos trabajos cotidianos (ejemplo con tareas que requieran el procesamiento de información escrita o hablada, incluyendo traducción o transcripción de documentos en múltiples áreas).

Estas tecnologías avanzan más rápido que nuestra comprensión de su uso y potencial impacto. A continuación, discutiré un reciente artículo que evalúa el impacto potencial de estos modelos en el mercado laboral.

El impacto de los GPTs en el mercado laboral

El equipo de OpenAI recientemente publicó el artículo: GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models [5]. El artículo es un pre-print, esto quiere decir que todavía no ha sido publicado oficialmente por una revista ni ha sido revisado por pares.

Los autores, haciendo un uso inteligente del lenguaje, mencionan como los modelos GPT (Generative Pre-trained Transformers) pueden ser Tecnologías de Propósito General (también GPT por sus siglas en inglés). Esto quiere decir que adaptaciones de modelos como Chat GPT seguramente tendrán aplicaciones que ni siquiera podemos imaginar en múltiples profesiones y campos de la industria, desempeñando de manera eficiente muchas tareas que en el momento son desarrolladas por humanos.

Tal vez para evitar generar una imagen negativa del uso de estas herramientas, los autores no hablan del impacto de los GPTs en los empleos, sino de que tareas pueden estar más “expuestas” a estas tecnologías. El término exposición implica que la tarea, o la eficiencia con que se realiza, podría ser desempeñada o mejorada por medio de GPTs. La palabra exposición no implica una dirección de cambio (aumento o disminución) de las posibilidades de empleo en un sector.

Los autores establecieron 3 niveles de exposición:

  • E0 = si la diferencia del tiempo para completar la tarea no es mucho menor en las condiciones actuales utilizando el LLM
  • E1 = Si se considera que el tiempo necesario para completar una tarea se podría reducir en al menos un 50% utilizando el LLM
  • E2 = si el LLM por sí solo no reduciría el tiempo para completar la actividad en al menos 50%, pero su uso en conjunto con otro sistema de inteligencia artificial sí podría lograrlo.

Para analizar la exposición de diferentes empleos a los GPTs los autores tomaron una gran base de datos (O*NET database) que incluye I) 19265 descripciones de empleos y II) 2087 actividades específicas relacionadas con 1016 ocupaciones (empleos) en los Estados Unidos. A partir del listado de descripciones y tareas los investigadores estimaron cuántas de estas tareas podrían ser desarrolladas con el uso de GPTs como chat GPT.

Lo interesante, y un ejemplo de cómo estas tecnologías podrían hacer más eficiente algunos trabajos asignados a personas, es que los investigadores también entrenaron chat GPT-4 para realizar la misma estimación, y compararon las predicciones humanas y las realizadas por el, encontrando una gran correlación entre ambos análisis. Este ejemplo muestra cómo, bajo un entrenamiento correcto, un modelo como chat GPT-4 podría realizar el trabajo de personas que trabajan en tareas que podrían ser consideradas complejas, como algunas relacionadas con la investigación.

Las grandes conclusiones del artículo son las siguientes

  1. Tomando únicamente el nivel de exposición E1 alrededor del 15% de las tareas (no personas) están expuestas a los LLM
  2. Si se considera el uso conjunto de varias tecnologías, en el nivel de exposición E2, el porcentaje de tareas expuestas a los LLMs podría ser superior al 50%
  3. Alrededor del 80% de trabajadores desarrollan por lo menos una tarea que está expuesta a los GPTs
  4. Un 19% de personas cuentan con empleos donde más de la mitad de las tareas podrían estar expuestas a los GPTs
  5. La mayor parte de categorías de empleo están expuestas a GPTs, y en general sólo aquellas que involucran pensamiento crítico y científico, parecen estar menos expuestas
  6. Existe una asociación entre el nivel de educación necesario para hacer un trabajo y la exposición a GPTs.
    1. Los investigadores dividieron el nivel de educación necesario en cinco zonas, donde la zona 1 requiere muy poca preparación y en la zona 5 se requieren más de 5 años de entrenamiento.
    1. La mediana del salario anual para un trabajador en la zona 1 es de USD $30230, mientras que para un trabajador en la zona 5 es de USD $80980.
    1. Los investigadores encontraron que aquellos trabajos que se encuentran en las zonas 1 – 4 están expuestas a GPTs, y en la zona 5 están parcialmente expuestos.
  7. Salarios altos están asociados a actividades que pueden estar expuestas más a los GPTs.
  8. Personas con salarios bajos, asociados a tareas que requieren esfuerzo físico o tareas manuales, no cambiarían con el uso de GPTs

Este es un artículo muy interesante y al ser un pre print tiene algunos pequeños problemas en su redacción. El documento en general nos invita a reflexionar acerca del posible impacto laboral del uso de inteligencia artificial, estos modelos avanzados GPT, en el mercado laboral.

Seguramente la opción de muchas de estas tecnologías será inevitable, así que nuestras manos está el desarrollar estrategias que permitan que nuestra fuerza laboral esté preparada, no para “luchar” contra la innovación, sino, para beneficiarse y mejorar nuestra productividad por medio del uso ético y responsable de la inteligencia artificial y la robótica.

Bibliografía

[1]M. Balter, «www.science.org,» 2015. [En línea]. Available: https://www.science.org/content/article/human-language-may-have-evolved-help-our-ancestors-make-tools.
[2]«englishfinders.com,» 2018. [En línea]. Available: https://englishfinders.com/characteristics-of-language/.
[3]A. Moreno, «www.iic.uam.es,» [En línea]. Available: https://www.iic.uam.es/inteligencia/que-es-procesamiento-del-lenguaje-natural/.
[4]F. Chen, «www.linkedin.com,» 2023. [En línea]. Available: https://www.linkedin.com/pulse/brief-history-large-language-models-llm-feiyu-chen/.
[5]S. M. P. M. D. R. Tyna Eloundou, «GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models,» arxib.org, 2023.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: