La vista humana es más versátil que la artificial porque nosotros vemos formas... pero las máquinas sólo reconocen texturas

Si se colase en nuestra casa un gato cualquiera (ya sea blanco, negro, rayado o con manchas), no tendríamos muchos problemas a la hora de detectarlo y identificarlo cuando entrase en nuestro campo visual, incluso si estuviera en movimiento o acurrucado tras un cojín.

Sin embargo, si no estuviéramos en casa y confiáramos en que nos avisara nuestro sistema de seguridad equipado, por ejemplo, con una red neuronal profunda que ejecute algoritmos de visión artificial, su efectividad a la hora de identificar al intruso sería -excepto bajo ciertas condiciones muy concretas- mucho menor.

Lo que no estaba muy claro hasta ahora era el motivo de esta diferencia. Ahora, un equipo de investigadores alemanes ha descubierto una inesperada explicación para ello: mientras que la visión humana prestan atención a las formas de los objetos, la visión artificial mediante deep learning se centra en las texturas como criterio de identificación.

En Xataka

La famosa ilusión óptica del pato y el conejo, cómo la interpreta una inteligencia artificial y qué consecuencias tiene eso

No, humanos y máquinas no 'vemos' lo mismo

Tendemos a pensar que la IA tiende a ser tan sólo un reflejo sintético de nuestros propios modos de procesar la realidad, pero lo cierto es que cuando una red neuronal ejecuta un algoritmo de deep learning el sistema se convierte en una caja negra: sólo sabemos que el sistema se dedica a buscar patrones en los datos, que después utiliza para decidir la mejor manera de etiquetar una imagen que nunca ha visto antes.

Y el hecho de que los sistemas de visión artificial hayan sido capaces de ver diferencias que nosotros no apreciamos (ni siquiera después de que la IA nos avise de que están ahí) y de que cambios inapreciables realizados en una imagen sean capaces de confundir a una IA cambiando incluso la identidad de lo que ve, ya nos da una pista de que humanos y máquinas no 'vemos' lo mismo cuando miramos los mismos objetos.

Sin embargo, hasta que el neurocientífico computacional Matthias Bethge y el psicofísico Felix Wichmann no se pusieron a investigar este hecho junto a su equipo de investigadores de la Universidad de Tubinga, no teníamos muy claro dónde radicaba la diferencia.

Los investigadores se dieron cuenta de que cuando se entrenaba una red neuronal con imágenes degradadas con un determinado tipo de 'ruido', demostraba ser superior a los humanos identificado objetos en imágenes sometidas al mismo tipo de distorsión. Sin embargo, cualquier pequeña alteración de la misma devolvía a los humanos el liderato.

En Xataka Foto

Los patrones en fotografía: cómo localizarlos y aprovecharlos para lograr buenas imágenes

Sesgos más razonables de lo que parece

Los investigadores se dieron cuenta de que las formas de los objetos seguían siendo igual de reconocibles antes y después de aplicar la distorsión, de modo que la explicación podía radicar en cómo procesa la red neuronal la textura de cada objeto.

La forma de comprobar si el problema radicaba ahí fue tan sencilla como ingeniosa: crear imágenes falsas que incluyesen señales contradictorias, como por ejemplo siluetas de gato con la textura de la piel de un elefante, y osos 'hechos' de latas de aluminio. Y una vez creadas, se preguntó a humanos y a redes neuronales qué veían. Los humanos, como preveían, vieron un gato y un oso. Las redes neuronales, invariablemente, respondieron reconociendo las texturas de cada imagen.

Imagen extraída del paper "Imagenet-trained CNNs are biased towards texture: increasing shape bias improves accuracy and robustness".

El sesgo humano en favor de la forma es fácil de explicar: vivimos en un mundo tridimensional, que nos permite ver los objetos desde múltiples ángulos y bajo muchas condiciones diferentes, y donde podemos complementar nuestra información visual con otros sentidos, como el tacto.

Pero, por extraña que pueda resultar esta preferencia de la IA por las texturas, en realidad tiene también sentido: éstas ofrecen una mayor cantidad de información disponible, frente a los pocos píxeles indicativos de la forma del objeto.

A partir de ese descubrimiento, el equipo apostó por crear un sistema de reconocimiento que divida cada imagen en varios pequeños 'parches' (para acabar con la ventaja de la textura como principal fuente de información) y analice qué evidencias ofrece cada uno de ellos usando varios algoritmos distintos, para después, simplemente, recopilar toda la información sin tener en cuenta las relaciones espaciales entre los fragmentos, integrándola para extraer características de alto nivel.

La precisión del sistema resultó ser notable, exhibiendo un sesgo más 'humano' e incluso más a prueba de la introducción de 'ruido', lo que lo hace más efectivo frente a ciertos ataques antagónicos.

Vía | Quanta Magazine

Imagen | Pixnio