Confieso que durante mucho tiempo miré la generación de imágenes con inteligencia artificial con esa mezcla de fascinación y desconfianza que uno reserva para los trucos de magia bien ejecutados. Todo parecía encajar hasta que uno se acercaba lo suficiente como para ver el hilo invisible. Era espectacular, sí, pero también profundamente limitado. Bastaba pedir algo tan sencillo como un cartel con texto coherente, una portada con intención narrativa o una imagen que respetara una frase concreta para que todo se desmoronara sin remedio. Las letras se retorcían como si hubieran sido dibujadas por alguien que nunca aprendió a escribir, las palabras mutaban en jeroglíficos absurdos y el resultado final era un simulacro elegante, pero hueco. Había forma, había estética, pero faltaba lo esencial, que no era otra cosa que comprender lo que se estaba pidiendo.
Por eso, cuando aparece lo que ahora llaman ChatGPT Imagen 2, no puedo evitar detenerme y mirar con más atención de la habitual. Porque esto no es una simple mejora incremental ni una evolución cosmética pensada para titulares fáciles. Aquí hay algo distinto, algo que tiene más que ver con el fondo que con la forma. Tengo la sensación de estar ante ese momento en el que la máquina deja de comportarse como un niño con talento para copiar dibujos y empieza a parecerse, aunque sea de lejos, a un aprendiz que comienza a entender lo que hace. Y eso, para quienes llevamos tiempo siguiendo este asunto con una ceja levantada, no es poca cosa.
Hasta ahora, todo esto funcionaba como una especie de eco visual, una repetición más o menos sofisticada de patrones aprendidos. La máquina combinaba estilos, imitaba referencias, construía imágenes atractivas a partir de lo que había visto antes, pero no entendía realmente el lenguaje que acompañaba esas instrucciones. Cuando uno pedía un cartel, obtenía algo que se parecía a un cartel, pero que no era capaz de sostener un mensaje. Y aquí conviene detenerse un momento, porque el lenguaje no es un adorno ni un complemento, es la estructura que sostiene el significado. Sin lenguaje, o con un lenguaje mal comprendido, todo lo demás se convierte en una máscara sin contenido.
Y en mitad de todo esto, no puedo evitar que me asalte un recuerdo personal que explica mejor que cualquier análisis técnico por qué este avance me resulta tan revelador. Siempre me interesó el mundo de la infografía. No como una moda pasajera ni como un adorno visual para rellenar espacios, sino como una forma de condensar ideas, de ordenar el caos y de contar algo complejo de manera clara y directa. Crear una infografía, al menos como yo la he vivido, nunca fue un proceso trivial. Era costoso en tiempo, exigente en criterio, casi artesanal en su ejecución. Había que pensar la estructura, decidir qué contar y qué dejar fuera, buscar el equilibrio entre lo visual y lo textual, pelear con herramientas que no siempre ayudaban y, al final, rematar con esa sensación de haber construido algo que tenía sentido.
He sido el artífice de unas cuantas, y sé bien de lo que hablo. Sé lo que cuesta que una infografía funcione de verdad, que no sea solo bonita, sino útil. Por eso, cuando hoy veo la facilidad con la que ChatGPT es capaz de generar algo que, al menos en apariencia, cumple con esos requisitos, no puedo evitar que se me nublen los ojos. No por nostalgia ni por rechazo, sino por la evidencia de que algo que antes requería horas, incluso días, empieza a resolverse en cuestión de minutos. Y ese contraste, entre el esfuerzo de ayer y la inmediatez de hoy, tiene algo de vértigo.
Porque, y aquí viene la parte incómoda, esto no va sólo de eficiencia. Va de cómo se redistribuye el valor. Recuerdo, hace ya mil años, una empresa de publicidad en la que el llamado creativo observaba el mundo desde su particular torre de marfil. Era una figura casi mitológica, alguien que pensaba y otros ejecutaban. Había una liturgia alrededor de ese rol, una especie de respeto reverencial hacia quien tenía la idea, mientras el resto del equipo se encargaba de materializarla con más o menos fortuna. Aquello funcionaba en un contexto donde la ejecución tenía un coste alto y la herramienta marcaba límites claros.
Hoy ese paisaje ha cambiado de forma radical. El creativo ya no está solo, ni aislado, ni protegido por la dificultad técnica. Hoy el creativo es un algoritmo, o al menos comparte mesa con uno. Y aquí es donde a alguno le escocerá la frase, pero conviene decirla sin rodeos. Ese “algorrino”, como lo llamaría con cierta retranca, no tiene ego, no se cansa y no necesita justificar su inspiración. Ejecuta, interpreta y propone con una velocidad que deja en evidencia muchas inercias del pasado.
Esto no significa que el talento humano desaparezca ni que el criterio deje de importar. Todo lo contrario. Significa que se desplaza. Que ya no basta con tener una buena idea si no se sabe orientar a la herramienta para que la ejecute con sentido. Que el valor ya no está en saber hacer clic en el sitio adecuado, sino en saber qué se quiere conseguir y por qué. Y aquí es donde muchos van a tener que bajar de su particular torre de marfil, porque el terreno de juego ha cambiado sin pedir permiso.
Volviendo al núcleo de la cuestión, lo que ahora se nos presenta con esta evolución es una capacidad real de integrar texto e imagen de forma coherente. No perfecta, insisto, pero sí lo suficientemente sólida como para alterar dinámicas que llevaban años enquistadas. Empiezo a ver cómo la máquina respeta palabras, cómo mantiene frases, cómo construye escenas donde el lenguaje no es un estorbo, sino parte esencial del mensaje. Y en ese detalle se esconde una transformación profunda, porque cuando una herramienta empieza a entender lo que le dices, deja de ser un simple ejecutor y empieza a convertirse en algo más cercano a un interlocutor.
Esto cambia las reglas del juego de una manera que muchos todavía no terminan de asimilar. Ya no se trata solo de generar imágenes bonitas o de alimentar redes sociales con contenido vistoso. Se trata de construir mensajes completos, de articular ideas donde lo visual y lo textual trabajan en la misma dirección. Pienso en todos aquellos que han tenido que pelear durante años con herramientas que prometían mucho y entregaban poco en cuanto el texto entraba en escena. Pienso en diseñadores, en comunicadores, en creadores de contenido que han invertido horas interminables en corregir detalles absurdos que una máquina simplemente no entendía. Y ahora, de repente, esa fricción empieza a desaparecer.
Y cuando la fricción desaparece, el cambio se acelera de una forma casi inevitable. Porque la tecnología, cuando realmente funciona, no pide permiso, se impone. Y lo hace desplazando el valor hacia otro lugar. Durante años hemos confundido el dominio de la herramienta con el talento, como si saber manejar un programa fuera equivalente a entender la comunicación. Ahora aparece una máquina que resuelve en segundos lo que antes requería tiempo, técnica y paciencia, y deja al descubierto una verdad incómoda que muchos preferirían no ver. Lo difícil nunca fue ejecutar, lo difícil siempre ha sido pensar, decidir, tener criterio.
En ese sentido, ChatGPT Imagen 2 no viene a sustituir al creador que sabe lo que hace. Viene a poner en evidencia al que no lo tiene claro. Porque cuando la herramienta mejora, la mediocridad queda más expuesta que nunca. Y esto, como es natural, generará ruido, resistencia y todo ese catálogo de reacciones humanas que ya conocemos bien. Habrá quien vea en esto una amenaza directa a su trabajo y quien lo celebre como una liberación. Habrá discursos grandilocuentes y análisis simplistas, como siempre ocurre cuando algo empieza a moverse de verdad.
Pero más allá del ruido, lo relevante está en otra parte. Está en entender que la integración entre lenguaje e imagen no es un detalle técnico, sino la base de la comunicación contemporánea. Es lo que permite explicar, persuadir, emocionar, informar. Y si una máquina empieza a manejar ese binomio con soltura, aunque sea de forma imperfecta, las implicaciones son profundas. No hace falta exagerar ni caer en el entusiasmo fácil para reconocer que estamos ante un cambio significativo.
También conviene no perder de vista el otro lado de la moneda, porque si algo nos ha enseñado la historia es que cada avance tecnológico trae consigo oportunidades y riesgos en proporciones similares. La misma capacidad que permite generar contenidos coherentes y útiles puede utilizarse para construir relatos engañosos con una facilidad inquietante. Y en un entorno donde la desinformación ya es un problema serio, añadir herramientas más potentes no es precisamente una cuestión menor. La tecnología no decide por nosotros, pero amplifica nuestras decisiones, y eso siempre tiene consecuencias.
Por eso prefiero mantener una mirada que no sea ni ingenua ni cínica. Sí, la evolución es espectacular, y no tendría sentido negarlo. Sí, estamos ante un avance que cambia muchas dinámicas. Pero no, esto no es inteligencia en el sentido humano, ni comprensión plena, ni una entidad que piense como nosotros. Es un sistema que ha aprendido a relacionar lenguaje e imagen con una precisión que hasta hace poco parecía inalcanzable, y eso, sin necesidad de adornarlo más, ya es suficientemente relevante.
He probado, he observado y, sobre todo, he comparado con lo que había hace apenas unos meses. Y la sensación es clara. Ya no estoy jugando con una curiosidad tecnológica que sirve para hacer pruebas y poco más. Empiezo a trabajar con una herramienta que entiende, al menos en parte, lo que le pido. Y ese matiz cambia la experiencia de uso de forma radical. Porque cuando uno deja de corregir errores absurdos y empieza a construir sobre una base sólida, el proceso creativo se transforma.
Quizá dentro de un tiempo miremos atrás y veamos esto como un paso más dentro de una evolución continua. O quizá lo identifiquemos como uno de esos momentos en los que algo se mueve lo suficiente como para alterar el rumbo. No tengo una bola de cristal, ni falta que hace. Lo que sí tengo es la intuición, basada en lo que veo, de que estamos ante un punto en el que la inteligencia artificial deja de ser torpe en un aspecto clave. Y cuando deja de ser torpe, empieza a ser realmente útil o realmente problemática, dependiendo de quién esté al otro lado de la pantalla.
En cualquier caso, lo que tengo claro es que algo ha cambiado. Y cuando algo cambia en este terreno, lo prudente no es ignorarlo ni aplaudirlo sin más, sino entenderlo. Porque la historia de la tecnología no la escriben las herramientas, la escriben quienes saben utilizarlas con cabeza. Y en ese sentido, ChatGPT Imagen 2 no es el final de nada, pero sí puede ser el principio de una etapa en la que la relación entre lo que pensamos, lo que escribimos y lo que mostramos empieza a estrecharse de una manera que hasta ahora solo intuíamos.
Y eso, para bien o para mal, ya está aquí.
VEAMOS UNOS EJEMPLOS
