Cuando nos vendieron la "Inteligencia Artificial" generativa sabíamos que iba a ser artificial y generativa pero no "inteligente"

Hace unos meses a un grupo de investigadores españoles se les ocurrió poner a prueba a un chatbot de IA con una prueba curiosa. Subieron al chatbot una imagen de un reloj analógico y le preguntaron a la IA un simple "¿Qué hora es en ese reloj?". La IA falló de forma inquietante.
Máquina, ¿me dices la hora? Los investigadores de la Universidad Politécnica de Madrid, la Universidad de Valladolid y el Politecnico de Milano firmaron hace un mes un estudio en el que quisieron evaluar cómo de inteligente era la inteligencia artificial de esos modelos. Para ello construyeron un gran conjunto de imágenes sintéticas de relojes analógicos —disponibles en Hugging Face— en los que se mostraban 43.000 horas distintas.
Antes de afinar (fine-tuning) su comportamiento los modelos de IA fallaron de forma consistente al intentar decir la hora. Tras el ajuste el comportamiento fue mucho mejor, pero aun así imperfecto. Que no debería ocurrir con una cuestión tan "simple" para los humanos.Resultado desastroso. A partir de ahí fueron preguntando a cuatro modelos de IA generativa qué hora mostraban esas imágenes de esos relojes analógicos. Ninguno de ellos logró decir la hora de forma precisa. Ese grupo de modelos estaba compuesto por GPT-4o, Gemma3-12B, LlaMa3.2-11B y QwenVL-2.5-7B, y todos ellos tuvieron serios problemas para "leer" la hora y diferenciar por ejemplo las manecillas o el ángulo y dirección de esas manecillas en relación a los números marcados en el reloj.
Ajuste fino para mejorar. Tras esas primeras pruebas, el grupo de investigadores logró mejorar de forma notable el comportamiento de esos modelos tras realizar un ajuste fino: los entrenaron con 5.000 imágenes adicionales de ese conjunto de datos y luego volvieron a evaluar el comportamiento de los modelos. Sin embargo los modelos volvieron a fallar de forma consistente cuando los probaron con un conjunto distinto de imágenes de relojes analógicos. La conclusión estaba clara.
No saben generalizar. Lo que descubrieron con esta prueba fue la confirmación de lo que venimos observando desde el principio con los modelos de IA: son buenos reconociendo datos con los que están familiarizados (memorizados), pero a menudo fallan en escenarios a los que nunca se han enfrentado y que no forman parte de sus conjuntos de entrenamiento. O lo que es lo mismo: eran incapaces de generalizar.
Dalí entra en escena. Para tratar de averiguar las causas de esos fallos los investigadores crearon nuevos conjuntos de imágenes en los que por ejemplo utilizaban los célebres relojes distorsionados de Dalí, o en los que incluían flechas al final de las manecillas. Los seres humanos son capaces de decir la hora en relojes analógicos aun estando distorsionados, pero para los modelos de IA aquello fue un problema enorme.
Si hacen esto con relojes, imagina con análisis médicos. El peligro de estas conclusiones es que vuelven a detonar el debate sobre si los modelos de IA generativa son ciertamente artificiales y generativos, pero no demasiado inteligentes. Si tienen estas dificultades para identificar las manecillas o sus orientaciones, la cosa es peligrosa si lo que tienen que analizar los modelos son imágenes médicas o, por ejemplo, imágenes en tiempo real de un coche autónomo circulando por una ciudad.
Las IAs son tontísimas. Aunque es cierto que los modelos de IA generativa son fantásticos como ayuda en diversos escenarios como la programación, la realidad es que lo que hacen es "regurgitar" respuestas que ya forman parte de sus datos de entrenamiento. Como explicaba Thomas Wolf, Chief Science Officer de Hugging Face, una IA generativa "nunca va a preguntarse cosas que nadie había pensado o que nadie se había atrevido a preguntar". Aunque gracias a su descomunal memoria y entrenamiento pueden recuperar multitud de datos y presentarlos de formas útiles, que encuentren soluciones a problemas para los que no han sido entrenados es muy complicado. Para expertos como Yann LeCun la realidad es clara: la IA generativa es tontísima y, además, un callejón sin salida.
Fuente: clocks.brianmoore.comLa IA tampoco dibuja relojes muy bien. Al experimento de esos investigadores se le suma otra pequeña prueba que vuelve a poner en entredicho la capacidad de la IA generativa. Se trata de pedirles a distintos modelos que creen el código que permita mostrar un reloj analógico con la hora actual. Un diseñador llamado Brian Moore ha querido compartir el resultado de varios modelos de IA y lo cierto es que el resultado obtenido en la mayoría de ellos es terrible, aunque otros como Kimi K2 logran un buen resultado. Nosotros hemos probado con los recientes Grok 4.1 y GPT-5.1. Tras insistir un poco Grok 4.1 ha dibujado el reloj perfecto y funcionando. Con GPT-5.1 no ha habido forma, al menos en nuestras pruebas.
Una realidad preocupante. Esa incapacidad de resolver tareas que parecen sencillas hace que desde luego estos modelos no queden en buen lugar. Es cierto que un buen prompt puede ayudar a resolver algunas de esas limitaciones, pero lo que cada vez resulta más evidente es que los modelos de IA siguen cometiendo errores a pesar del paso del tiempo. La teórica revolución de esta tecnología necesita precisamente erradicarlos, y no parece que estemos en vías de conseguirlo. Los modelos mejoran, sí, pero no lo suficiente para que podamos fiarnos de ellos al 100%.
Imagen | Yaniv Knobel
-
La noticia Cuando nos vendieron la "Inteligencia Artificial" generativa sabíamos que iba a ser artificial y generativa pero no "inteligente" fue publicada originalmente en Xataka por Javier Pastor .
Fuente: Xataka
Enlace: Cuando nos vendieron la "Inteligencia Artificial" generativa sabíamos que iba a ser artificial y generativa pero no "inteligente"

Comentarios
Publicar un comentario