Patricia Murrieta-Flores y Chat GPT
Introducción
Hoy en día, la Inteligencia Artificial (IA) ya no es solo cosa de ciencia ficción; es una realidad que está cambiando la forma en que interactuamos con la tecnología. Uno de los desarrollos más emocionantes en este campo son los Modelos de Lenguaje Extensos (Large Language Models, LLMs), como ChatGPT, que nos están ayudando a explorar nuevas formas de trabajar y aprender, especialmente en áreas como las Humanidades Digitales.
¿Qué son los Modelos de Lenguaje Extensos?
Los LLMs son modelos de IA que han sido entrenados con cantidades enormes de texto para poder entender y generar lenguaje humano de manera sorprendentemente precisa. Estos modelos, como ChatGPT, están basados en redes neuronales y han recorrido un largo camino desde sus orígenes. Todo comenzó en los años 50 con Alan Turing y su idea de que las máquinas podrían pensar y, desde entonces, la tecnología ha avanzado hasta llegar a lo que conocemos hoy.
En 2017, la introducción de los Transformers cambió las reglas del juego. Gracias a esta arquitectura, los modelos pueden procesar texto de manera más eficiente, capturando patrones y dependencias a largo plazo. Esto es lo que ha permitido que los modelos como GPT-4 sean capaces de generar texto tan coherente y relevante.
¿Cómo se aplican en las Humanidades Digitales?
Personalmente, he encontrado que estos modelos son herramientas poderosas para cualquier persona interesada en las Humanidades. Durante un taller reciente con nuestro equipo de investigación, exploramos diferentes maneras en que los LLMs pueden ser útiles en este campo. Aquí te comparto algunas de las aplicaciones más interesantes:
- Extracción y Manipulación de Datos: Una de las cosas que más me ha sorprendido es lo bien que estos modelos pueden ayudarnos a organizar y limpiar datos. Por ejemplo, es posible usar ChatGPT para extraer nombres de personas y lugares de documentos históricos, y luego georreferenciarlos, dándonos coordenadas que podemos visualizar en un mapa.
- Análisis Textual: Si te dedicas a la investigación, los LLMs pueden ser de gran utilidad y se pueden agregar a tus ‘pipelines’ de trabajo. Pueden resumir textos complejos, analizar literatura, e incluso generar preguntas de investigación que quizá no se te habían ocurrido. Todo esto de manera rápida y eficiente, lo que te deja más tiempo para profundizar en lo que realmente importa.
- Generación de Contenido: También se va volviendo cada vez más obvio que estos modelos son excelentes para crear contenido, ya sea para materiales educativos, ensayos o, incluso, para preparar discursos. Es como tener un asistente que te ayuda a pulir tus ideas y presentarlas de la mejor manera posible.
Los desafíos éticos que no podemos ignorar
Ahora, no todo es color de rosa. A pesar de lo útiles que son, los LLMs vienen con su propio conjunto de desafíos éticos que debemos tener en cuenta. Uno de los principales problemas es la parcialidad en los datos de entrenamiento. Estos modelos se entrenan con enormes cantidades de datos recopilados de internet, donde existen sesgos de todo tipo: raciales, de género, culturales, y más. Debido a esto, los modelos pueden perpetuar e incluso amplificar estos sesgos cuando generan contenido. Por ejemplo, al responder preguntas o generar textos, pueden reforzar estereotipos o proporcionar información desequilibrada. Este problema es complejo de resolver porque está profundamente arraigado en los datos con los que los modelos son entrenados. Diversos estudios sugieren que, aunque hay esfuerzos para mitigar estos sesgos, es casi imposible eliminarlos por completo. Es particularmente importante considerar que estas tecnologías y modelos están concebidos y entrenados con datos modernos, especialmente en lenguas Europeas, y con las visiones del Norte Global. A medida que los LLMs se utilizan en aplicaciones sensibles, como la educación o la justicia, este problema podría tener consecuencias significativas si no se maneja adecuadamente. Lee más aquí: Should ChatGPT be biased? Challenges and risks of bias in large language models | First Monday
Otro tema importante es la falta de transparencia en cómo funcionan los LLMs. Estos modelos son a menudo descritos como “cajas negras” porque, aunque generan resultados impresionantes, es difícil entender cómo llegan a esas conclusiones. Esto plantea problemas, especialmente en aplicaciones críticas donde la explicación de una decisión es vital, como en diagnósticos médicos o en sistemas de recomendación financiera. Los usuarios y los reguladores necesitan confiar en que estos modelos no solo funcionan bien, sino que también son explicables y auditables. Algunos expertos proponen que para que los LLMs sean confiables debe haber mecanismos más claros para auditar y entender sus decisiones, lo que implica desarrollar nuevas técnicas y normativas para garantizar que las decisiones de los LLMs sean transparentes y responsables. Lee más aquí: Casi todas las IA generativas suspenden en transparencia en este índice (businessinsider.es)
Otro problema importante es el impacto medioambiental en el desarrollo de estas herramientas y que a menudo se pasa por alto en las discusiones sobre la IA generativa. Entrenar y operar LLMs requiere una cantidad masiva de poder computacional, lo que a su vez consume una gran cantidad de energía. Por ejemplo, se ha estimado que el entrenamiento de un solo modelo de lenguaje extenso puede emitir tantas emisiones de carbono como las que generaría un automóvil durante más de 700,000 millas de conducción.
La huella de carbono asociada con la IA es preocupante porque estos modelos no solo requieren energía para el entrenamiento, sino también para la inferencia, es decir, para generar respuestas cada vez que se utilizan. A medida que el uso de LLMs se expande, también lo hace su impacto ambiental, lo que plantea serias preguntas sobre la sostenibilidad de esta tecnología a largo plazo.
La comunidad tecnológica está comenzando a explorar formas de mitigar estos impactos, como el desarrollo de algoritmos más eficientes y el uso de fuentes de energía renovable para los centros de datos. Sin embargo, estos esfuerzos todavía están en sus primeras etapas, y es crucial que se aceleren para evitar que la IA contribuya de manera significativa al cambio climático. Lee más aquí: El impacto ambiental de la IA generativa: perspectivas de investigadores, reguladores y titanes de la industria. – Science
Finalmente, la privacidad es una gran preocupación. Estos modelos dependen de grandes cantidades de datos personales para funcionar, y eso plantea preguntas sobre cómo se protegen nuestros datos. Estos modelos suelen necesitar acceso a grandes cantidades de datos personales para funcionar eficazmente. Esto plantea riesgos significativos, como la posible exposición o mal uso de información sensible. Además, dado que los LLMs pueden generar texto basado en los datos con los que fueron entrenados, existe el riesgo de que puedan divulgar inadvertidamente información confidencial.
En un mundo donde la privacidad ya está siendo erosionada por el creciente uso de la tecnología, el despliegue masivo de LLMs podría agravar estos problemas, haciendo aún más urgente la necesidad de regulaciones y salvaguardas que protejan los datos personales. Lee más aquí: La inteligencia artificial y los límites de la privacidad (welivesecurity.com)
Reflexiones Finales
La Inteligencia Artificial, y en particular los Modelos de Lenguaje Extensos, están transformando las Humanidades Digitales de maneras que nunca habríamos imaginado. Sin embargo, es crucial que sigamos cuestionando y discutiendo los desafíos éticos que acompañan a estas tecnologías. Al final del día, lo que realmente importa es que usemos estas herramientas de manera responsable para promover el bien común, en nuestro caso, avanzar ámbitos de investigación, pero al mismo tiempo siendo críticos con las herramientas que desarrollamos e utilizamos.