Complejidad y loros estocásticos
"Pero si la IA generativa no es más que un teclado predictivo con esteroides", dijo el mimimi de turno. No podemos negar la realidad: hay un grupo de personas en exceso optimistas diciendo que la IA generativa será el futuro de todo y que muchísimas profesiones se volverán obsoletas como quienes vendían hielo cuando se popularizaron las neveras... Pero en redes también encontramos al otro lado de la balanza a un grupo muy crítico que ridiculiza el mismo concepto de los modelos de lenguaje y su uso, hasta el punto de tratar de convencernos de que no sirven de nada, ignorando a los millones de usuarios que ya hoy en día le sacan provecho.
Sin entrar en el detalle de las limitaciones que pueden tener los modelos grandes de lenguaje (LLM), una queja que encontraréis en los sectores más críticos va a ser que ChatGPT no es más que un loro estocástico, que predice cuál es la siguiente palabra (aunque en el ámbito técnico lo llamemos token) más probable. ¿Cómo puede ser inteligente algo que únicamente hace cálculos matemáticos con los pesos de un modelo? La realidad es que probablemente no sepamos cómo algo puede parecer inteligente, como ChatGPT cuando le pides que te haga una tarea compleja como resumir un texto muy largo. Algo que, por cierto, a mí me gusta llamar pseudointeligencia.
Como dijo Jeff Bezos en 2023 en una entrevista con Lex Fridman, los modelos grandes de lenguaje no son una invención, sino un descubrimiento. Y ahora mismo hay muchos investigadores tratando de entender qué son capaces de hacer estos modelos... a la vez que mucha gente se mantiene escéptica a pesar de las maravillas que se van encontrando debido a sus muchos puntos débiles. Creo que el problema está en que el pensamiento determinista no suele tener en cuenta que el mundo real es complejo. Si pensamos en la ciencia tradicional aísla variables para entender su efecto individual porque es lo más sencillo de medir. Sin embargo, lo clave en los sistemas complejos no es cada factor por separado, sino su interacción en red.
En los sistemas complejos ocurre algo interesante: Aparecen cualidades emergentes. Un ejemplo clásico sería la interpretación estadística de la termodinámica de Boltzmann, que explicó que la temperatura es una propiedad estadística emergente del movimiento de las partículas que conforman un sistema. Cuanto más caliente, mayor temperatura. Incluso podríamos ir más allá y pensar en nuestro cerebro; nuestra inteligencia orgánica no es más que una cualidad emergente de las conexiones sinápticas neuronales.
Otros ejemplos que evidencian la importancia del pensamiento complejo y que nos resultan cercanos a todos serían orientados al mundo de la salud. Es sencillo hablar de que fumar es perjudicial, porque es un efecto lo suficientemente potente... pero no siempre tenemos una causa única tan bien definida. En problemas multifactoriales como el de la obesidad, es difícil encontrar únicos responsables más allá del desbalance calórico; y en este caso incluso se puede argumentar que más que una causa, es una consecuencia y que existe un efecto subyacente que junta problemas socioculturales, genéticos, ambientales...
Los seres humanos realmente no estamos acostumbrados a pensar en sistemas. Pensamos en acciones y consecuencias. Si un modelo matemático de IA genera texto de forma parecida al autocompletado de un teclado predictivo, nos decimos que será porque no es mucho más que eso. Pero en mi opinión, afirmar que la IA generativa no es más que un loro estocástico es equivalente a decir que la inteligencia humana no es más que un circuito de neuronas con sinapsis que se conectan y desconectan. ¿En qué momento podemos dejar de hablar de circuitos biológicos a hablar de inteligencia? Ni siquiera tenemos una buena respuesta a esa pregunta.
Volviendo a la cita de Bezos, creo que todavía estamos descubriendo de qué son capaces los LLM. En un sistema tan complejo, resulta complicado anticipar dónde aparecerán las nuevas propiedades emergentes. Y en el futuro, cuando se incremente esta complejidad ya sea en número de parámetros o en los datos que alimenten a este modelo, es difícil predecir adónde llegamos. Me parece interesante el futuro en el que alimentamos modelos con más información sobre la realidad, empezando por modelos multimodales que tienen información más allá del texto e incluso modelos como JEPA, de Yann LeCun, que buscan representar el mundo mediante abstracciones directas, sin depender exclusivamente del texto.
Porque, ¿en qué momento de complejidad podemos hablar de que un modelo matemático muestra signos de pseudointeligencia? ¿Son los 200.000 millones (billones) de parámetros? ¿Son los modelos de pensamiento profundo como OpenAI O1, o DeepSeek R3? ¿En qué momento la propiedad emergente de inteligencia aparece cuando no somos capaces de medirla en algo que no sea un ser humano? ¿Tenemos herramientas suficientes para identificar una potencial Inteligencia Artificial General (AGI) cuando esta emerja?
Y es que tal vez la inteligencia tanto biológica como artificial no aparece por diseño. Tal vez, y sólo tal vez, aparece como propiedad emergente y casi por casualidad cuando tienes un sistema nervioso/electrónico lo suficientemente complejo.


Comentarios