
Este artículo es un adelanto de nuestra nueva revista Humanismo Digital, ya disponible en nuestra tienda online.
A estas alturas, pocos son los que no han oído hablar de la inteligencia artificial y del que probablemente sea su paladín: ChatGPT. Este modelo de lenguaje, junto con sus evoluciones y congéneres de otras compañías, se ha colado en nuestras vidas: desde pulir correos electrónicos profesionales hasta componer canciones jocosas, entre muchas otras tareas. A pesar de tenerlo tan cerca, para más de uno sus habilidades habitan el espacio comprendido entre el artificio y la magia. Es aquí donde surge la duda: ¿qué es exactamente ChatGPT y cómo una máquina puede conversar con humanos con tanta naturalidad? En este artículo, exploraremos brevemente su funcionamiento, su evolución y adónde nos está llevando.
Entrenando nuestro loro: modelos de lenguaje
Para entender cómo funciona ChatGPT, pensemos en un loro al que estamos enseñando a traducir de español a inglés. Para ello, conversamos con él y le recitamos grandes cantidades de traducciones con el mismo patrón, como por ejemplo:
- ¿Cómo se dice «Vivo en Málaga» en inglés? Se dice «I live in Malaga».
- ¿Cómo se dice «Me gusta el chocolate» en inglés? Se dice «I like chocolate».
- ¿Cómo se dice «Me gusta el fútbol» en inglés? Se dice «I like football».
Al repetir este proceso muchas veces, el loro empieza a entender cómo funciona la traducción. Finalmente, aprende a terminar las frases, de forma que al preguntar «¿Cómo se dice «Vivo en Málaga» en inglés?», el loro responde «I live in Malaga». Sin embargo, el loro no entiende realmente lo que está diciendo: simplemente repite lo que ha oído. Por suerte, al ver muchísimos ejemplos, será capaz de traducir frases que nunca ha escuchado porque ha aprendido tanto sobre los ejemplos pasados que puede especular cuál podría ser la respuesta más probable aun sin haberla oído. Por ejemplo, si le preguntamos «¿Cómo se dice «Me gusta Málaga» en inglés?», el loro podría responder «I like Malaga» porque ha visto muchas traducciones que contienen la frase «Me gusta», otras tantas con el nombre «Málaga» y sabe que puede colocar estos dos fragmentos de información uno detrás de otro.
Este proceso puede repetirse con cualquier tipo de tarea escrita, como reescribir un correo electrónico, componer un poema o escribir un artículo. Simplemente se le da un ejemplo, su solución y el loro aprende a repetirlo. Así, el loro guarda toda la información en su memoria y es capaz de producir una respuesta muy similar a la que daría un humano. Esto tiene dos implicaciones importantes:
1) No podemos confiar en que el loro entienda la lógica de lo que dice. Por ejemplo, si le repetimos «1 + 1 = 3» insistentemente, el loro podría aprender a repetirlo y, si le preguntamos «¿Cuánto es 1 + 1?», podría responder «3». No realiza la suma, simplemente repite lo que ha oído. Esto puede perpetuar sesgos y creencias o vestir de objetividad ideas subjetivas.
2) Como consecuencia de esto, el loro puede producir texto muy visualmente muy similar al humano, pero sin sentido o erróneo. Por ejemplo, nada impide que el loro diga que «los gatos son verdes» o que «los perros vuelan». Esto se conoce como alucinaciones, y es un problema común en los modelos de lenguaje. Esto implica que, aunque el loro pueda parecer inteligente, siempre debe haber un humano que verifique lo que dice.
Escapando de la jaula: RAG
Para resolver el problema de las alucinaciones, se han desarrollado múltiples técnicas, pero lo más utilizado es la generación mejorada por recuperación, más conocida por sus siglas en inglés RAG (Retrieval-Augmented Generation). Esta técnica se basa en la idea de que el loro no solo debe aprender a repetir lo que ha oído, sino que también debe ser capaz de buscar información en biblioteca o base de datos externa para responder preguntas.
Para aplicarla, el loro necesita un sistema que le permita identificar rápidamente dónde se encuentra la información que necesita. Esto se logra mediante el uso de los llamados embeddings, es decir, una técnica matemática que permite representar textos como números. Así, el loro puede convertir la pregunta y los títulos de los libros a su alcance, medir cuánto se parecen y extraer la información del libro más adecuado. Como resultado, al apoyarse en información externa y contrastada, se reducen las alucinaciones y no es necesario que el loro tenga que ver la información durante el entrenamiento. Esto es particularmente útil para trabajar con datos privados, como bases de datos en empresas.
Volando libre: agentes
Una vez que el loro ha aprendido a buscar información, podemos pedirle que realice tareas complejas donde no solo tenga que pensar, sino que cuente con una caja de herramientas para interactuar con el mundo exterior. Por ejemplo, ya hemos visto que el loro puede no ser bueno en matemáticas, pero ¿y si le damos acceso a una calculadora? De este modo, el loro puede utilizarla para resolver problemas matemáticos. Es decir, ya no está limitado por su conocimiento interno y una base de datos, sino que puede recibir una tarea, pensar cuál es la mejor herramienta y utilizarla para obtener una respuesta adecuada.
Esto se conoce como un agente y supone un gran avance respecto a los modelos tradicionales. Su implementación abre la puerta a la automatización de múltiples tareas, funcionando como un operario virtual. No obstante, no es oro todo lo que reluce: los agentes pueden equivocarse a la hora de elegir herramientas y la infraestructura que requieren es más compleja y costosa. Hay que tener en cuenta que, al utilizar modelos como ChatGPT, los usuarios pagan por el número de tokens (palabras) que reciben, generan internamente y devuelve como respuesta, por lo que el coste de cada operación puede ser elevado.
¿Y por qué han surgido ahora? La respuesta es sencilla: la tecnología ha avanzado lo suficiente como para permitirlo. En los últimos años, hemos vivido la llegada de modelos de lenguaje con mejores capacidades, cercanos al rendimiento de los humanos en tareas como la programación. Además, el público general se ha familiarizado con el uso de estos modelos y contamos con interfaces muy intuitivas para su uso diario. Por último, cabe mencionar que los agentes son parte orgánica del desarrollo de la IA. Una vez se han resuelto los problemas de la comprensión y generación del lenguaje, el siguiente reto natural radica en aumentar la complejidad automatizando tareas.
Explorando el mundo: ¿qué hay más allá?
Una vez contamos con un agente capaz de automatizar tareas complejas, ¿por qué no integrarlo en un sistema más grande? Así, podemos conformar un equipo de agentes, cada uno de ellos especializado en una tarea concreta y que se comunican entre sí. Por ejemplo, un agente podría encargarse de buscar información en la biblioteca, otro podría encargarse de realizar cálculos y otro podría encargarse de redactar el informe final. Sobre esta premisa nacen los sistemas multiagente con diferentes arquitecturas: por ejemplo, un sistema con un agente director que coordina a los demás, o un sistema donde todos los agentes pueden interactuar entre ellos, entre otros. Se trata de organizaciones escalables y flexibles que ya se han utilizado para tareas como la investigación científica o la planificación de proyectos.
Una vez agotada la dimensión de la información y los datos, podemos pensar en llevar los modelos a la realidad física. Esto se puede hacer a través de robots, coches autónomos o sistemas de domótica, que permiten a los modelos interactuar con el mundo tangible a través de la visión por computador y el movimiento. Recientemente, pudimos ver al CEO de Nvidia, Jensen Huang, jugar con una pequeña mascota robot. Aunque la llegada de este tipo de asistentes a la vida diaria aun parece relativamente lejana y su complejidad es enorme, la tecnología avanza a pasos agigantados y muchas de las piezas necesarias ya están disponibles.
¿Cómo prepararnos para lo que viene?
El desarrollo de los grandes modelos de lenguaje, los agentes y sus derivaciones son una realidad con la que deberemos aprender a convivir. Sus aplicaciones impulsan la productividad en áreas múltiples y ya son comunes en el día a día personal y profesional. Por ello, es fundamental que tratemos de entrar en el juego, entenderlos y usarlos en nuestro beneficio con responsabilidad y prudencia. Una buena manera es atreverse a experimentar con ellos. Para algunos quehaceres se demostrarán útiles, mientras que, para otros, no tanto. Es importante recordar que siguen siendo herramientas, no sustitutos de los humanos, de la misma manera que el coche acelera el proceso del movimiento, pero no sustituye el andar. Precisamente así entenderemos sus limitaciones y podremos sacarles el máximo partido.
Esto nos lleva a pensar: si hacen tanto… ¿nos acabarán desplazando? La historia nos ha demostrado que la tecnología no reemplaza a los humanos, sino que los complementa. Algunas tareas quedarán obsoletas, pero acompañado del surgimiento de muchas otras. E incluso así, los humanos jugamos un papel fundamental difícilmente sustituible en varias áreas: entender las necesidades de los usuarios sigue muy ligado al trato humano, los resultados requieren validación a día de hoy y es imperativo que alguien se responsabilice de lo que pueda salir mal —¿indemnizaría ChatGPT a alguien por tomar una decisión incorrecta?—.
Conclusión
ChatGPT y los demás modelos de lenguaje no son sino una pieza más en el viaje humano por comprender la realidad, capturarla en modelos matemáticos y aprovecharla para satisfacer tanto sus necesidades como querencias. Su capacidad para trabajar con rapidez con grandes volúmenes de información permite optimizar decisiones y, lo que es más importante, tiempo.
Conscientes del valor de este último, es de esperar que la tendencia a descifrar los patrones de la naturaleza con modelos de inteligencia artificial se intensifique, iniciando un nuevo paradigma en la historia. Asistimos, como humanos, a una insondable carrera por superarnos a nosotros mismos y dirimiremos si crear una inteligencia artificial general, una IA con habilidades comparables a los humanos, rima con la ambición científica sin límites o, por el contrario, con la entelequia ingenua. Las preguntas y los métodos están en su sitio; las respuestas están aún computándose.








Aquí se pasan por alto un par de aspectos a mi entender cruciales de los LLMs, lo que además se aprovecha para defender un mensaje de la inevitabilidad de «experimentar con ellos porque hay que acostumbrarse», lo que yo definiría como falacia apologética.
1- Al contrario que otras «herramientas» con las que se intenta establecer el símil (coches, calculadoras…), los LLMs no son herramientas determinísticas, sino probabilísticas. Esto está en su base primaria, no es un detalle o algo que se les pueda mejorar. Cuando se usa un coche, no te esperas que pueda llevarte en dirección contraria a la que lo estás conduciendo en un momento dado aleatorio. Una calculadora no te colará entre operación y operación que la raíz de dos es un conejo. No es sólo apuntar a que una herramienta pueda llevar a una costumbre a ser redundante en el nuevo paisaje tecnológico, mientras expande tus opciones: la principal queja sobre los LLMs no debería ser que eliminan la necesidad de hacer ciertas tareas «tradicionales», sino que éstas se sustituyen por una lotería de trileros melífluos y muy seguros de sí mismos. De nuevo: esto es una limitación intrínsica a los modelos, no algo que «ya mejorará».
2- Se menciona que el proverbial «loro» de los LLMs se basará en lo que haya absorbido en su «aprendizaje». Bien, ¿y quién controla tal aprendizaje? Del mismo modo que un loro entrenado entre los cariñosos cuidados de Pol Pot no repetirá las mismas cosas que uno instruido por Richard Feynmann o Gandhi, los LLMs están siendo entrenados por empresas (privadas) dirigidas por personajes con agendas muy explícitas, con historiales probados tremebundos, sesgados y prácticamente exentos de cualquier rendición de cuentas sobre sus métodos y/o consecuencias. Todo ello convenientemente opaco e inaprehensible para casi la totalidad de sus usuarios. Ni se les ocurra ahora empezar a compararlos con la Wikipedia, donde la reproducibilidad, debate y capacidad de moderación comunitaria la sitúan ya no en otra liga, sino en otra disciplina enteramente.
3- A parte de los puntos anteriores, sin los cuales cualquier intento de explicar las LLMs hoy en día es bastante fútil… me esperaría que en una introducción pretendidamente seria (más en un medio como Jotdown) se hablase de las implicaciones éticas de su utilización sin prejuicios. Si yo quiero un loro amaestrado (¡y es mi derecho, coñes!), pero para ello tengo que darle de beber agua de los glaciares andinos traída en una cámara frigorífica ineficientísima del tamaño de un portaaviones, y cebarle trufas ecuatoriales cada una de las cuales es arrancada de bajo las raíces de árboles centenarios de la selva virgen, enviadas a mi casa por motor cohete de altas prestaciones… ¿es realmente justificable dicho pajarillo? Si encima te lo entrena un rey despótico de otro país, y cada cierto tiempo, no se sabe muy bien si accidentalmente (animalico…) o no, insulta a las visitas, te susurra que no estaría mal quemar tu casa o esclavizar a la limpiadora, que antes se hacía así y se forjaron imperios duraderos después de todo… ¿interesa incluso, al margen de la logística de su cara alimentación? Y si para entrenarlo el susodicho rey exige acceso ilimitado, incondicionado y gratuito (a pesar de sus riquezas) a tu biblioteca personal, y a la Nacional en Madrid, a la que de todas formas ya accedió por cierto sin permiso por la puerta de atrás, arrastrando una fotocopiadora, sorry not sorry… más que un loro se nos está quedando una entretenidísima marioneta llamada Chucky.
¿De verdad hay que animar a experimentar alegremente con una caja negra coronada por un turco mecánico que juega a todos los juegos de mesa conocidos, pero a veces se inventa movimientos, otras tira las piezas, otras saca 3 reyes en el ajedrez, y otras te narra durante la partida que tal juego fue inventado por emprendedores del Imperio Británico en 1898, mientras los engranajes enclaustrados en la caja cambian según le apetezca al dueño (amigo de Kasparov, para más señas, contra el que vas a batirte la semana que viene), y en realidad hay un enano allí metido que ajusta el tiro cuando le conviene? ¿Para qué? ¿Cuál es la ventaja de «conocer» esa innovación e intentar usarla (sin esperanza) «bien»?