Análisis de Deep Fusion: el futuro de la fotografía computacional a través del aprendizaje automático

Deep Fusion, un nuevo modo fotográfico 100% basado en aprendizaje automático que Apple presentó en el evento de septiembre de presentación de los nuevos iPhone y que acaba de llegar a los últimos modelos 11 y 11 Pro con la actualización iOS 13.2.

En este momento, mucha gente estará mirando con lupa, píxel a píxel, para buscar las diferencias de una foto sin Deep Fusion y con él, y así entender cuál es la diferencia de usar este modo o no y si aporta una diferencia notable. La realidad es que sí hay una diferencia importante, aunque no siempre sale a relucir y depende mucho de la luz, escenario, objeto, persona o elemento al que hagamos la fotografía. Que luego consideres que merece la pena o no, es cuestión de opinión personal.

Pero el objetivo de este artículo es analizar qué es realmente Deep Fusion y qué supone para el futuro de Apple. Y como suele pasar en muchos de mis artículos, para entender el presente primero hay que mirar el pasado y analizar los cambios hasta llegar aquí.

La evolución del HDR

Hagamos historia para entender de qué hablamos. Para ello tenemos que irnos al año 2017 donde Apple, por primera vez, incorporó un motor neuronal a su CPU y la capacidad que el chip de procesamiento de imagen (o ISP) que se encarga de procesar “lo que sale de la cámara” pudiera enviar a dicho motor procesos concretos. Esto permitió crear un modo de HDR automático que se ejecutaba en combinación de ambos chips. La consecuencia directa es una gran velocidad a la hora de procesar la imagen e incluso mostrarla en tiempo real en el visor de cámara. Tanto fotografías convencionales como en modo retrato.

Pero el iPhone X tenía problemas de sobreexposición muy claros en ese modo HDR, hasta el punto que generaba unos característicos halos alrededor de cualquier fuente de luz. Y muchas de las quejas continuan hoy porque Apple no ha arreglado este “problema”. ¿Por qué? Porque no puede. Puede atenuarlo por software una vez procesada la foto (de hecho, lo ha hecho en versiones de sistema posteriores) pero la capacidad de hacer las fotos y procesarlas tan rápidamente dependen del ISP y los algoritmos que tiene cargados a nivel de hardware.

La velocidad de un iPhone a partir de la CPU A11 para hacer fotografías HDR, tomar múltiples exposiciones en tiempo real y mostrar el resultado en vivo a través del visor, es responsabilidad del ISP que se encarga de realizar estas operaciones de forma fija y concreta con un algoritmo ya cargado y no actualizable.

Esto es importante de entender: la velocidad que hoy tenemos en el procesamiento de las fotografías en un iPhone es porque estas se procesan con un algoritmo fijo grabado en un chip. Como cuando codificamos vídeo que hace uso de un procesador de ayuda que tiene esa función exacta. Yo le envío un dato y este chip me lo devuelve ya procesado.

La ventaja que tiene poner una función en un chip de esta forma es que conseguimos un gran rendimiento a la hora de realizar procesos: la desventaja es que no podemos actualizar dichas funciones porque no son chips programables. Son chips que hacen tareas concretas de procesamiento de imágenes ya codificadas en las operaciones o capacidades del propio chip. Por lo tanto, por mucho que Apple quiera, el iPhone X jamás podrá solucionar ese problema de sobreexposición. Podrá atenuar en procesos software posteriores a que la foto esté hecha, pero el ISP devolverá la foto como la vemos siempre.

Llegamos a la siguiente generación XS y el chip A12. Apple da un paso nuevo y pone un ISP con una capacidad a la que llaman Smart HDR. Enseguida saltan las protestas: ¿por qué el iPhone X no puede tener Smart HDR? ¿Es que el A11 Bionic no es suficientemente potente? Sí, lo es. Pero es que no es cuestión de potencia. Es que de nuevo Apple pone el Smart HDR en un chip.

Ese chip tiene la función concreta ya programada y permite que los procesos de imagen se hagan a mayor velocidad. Y que así podamos tener live view de los resultados. Por lo tanto no hablamos de un software que se pueda actualizar: hablamos de un chip que hace la función. Y el chip lo hace porque si lo hiciera un software a partir del uso de la CPU pasaría como sucede en los Pixel de Google: que no tenemos visión en directo del resultado final de la foto hasta que la hacemos y se post-procesa en un tiempo que no es tiempo real.

De hecho, ¿cuándo han empezado los Pixel a dar live view del resultado antes de hacer la foto? En esta nueva generación que tiene un motor neuronal (Pixel Neural Core) que sustituye al anterior Pixel Visual Core que era solo un ISP sin apoyo de procesos de Machine Learning en el dispositivo.

A13 Bionic, un nuevo salto en potencia

De nuevo damos un salto de un año y llegamos a la actual generación: los A13 Bionic con su mejor capacidad y una mejora sustancial en la forma de procesar las fotografías.

En Applesfera

iPhone 11 y fotografía computacional: la magia tras las cámaras de esta generación

Esto incluye un nuevo Smart HDR que, de nuevo, no pueden usar generaciones anteriores porque viene en el chip. El nuevo algoritmo es sin duda mucho mejor y ahora los entusiastas de la fotografía y profesionales están alabando el trabajo hecho por Apple y dando por hecho que han conseguido ponerse a la altura de la competencia en calidad fotográfica (que ahora te guste más uno u otro es cuestión de gustos personales).

El proceso de la fotografía computacional, en sí, no ha cambiado. Ha evolucionado, obviamente, pero la base es la misma: hago varios disparos en diferentes exposiciones y obtengo lo mejor de cada una. Los disparos los hace y procesa el ISP y se apoya en el motor neuronal para decidir qué parte es la mejor de cada exposición.

Si repasamos cómo ha evolucionado el HDR y cómo la potencia de los chips es clave, vemos como el Auto HDR para el A11 hacia las fotografías en 4 exposiciones. Smart HDR en los A12 usaba 8 porque creaba exposiciones intermedias y calculaba la profundidad. Como hay más potencia, puede tratar más imágenes. El A13 mejora aún más porque a las 8 exposiciones une una parte que hace solo el motor neuronal: la detección de semántica de la fotografía: determinar qué se ve en la foto, qué exposición hay en cada zona, si es un retrato, un paisaje... es entender el contenido de la fotografía y actuar con procesos específicos que mejoren esta.

Llega Deep Fusion

Entonces, ¿qué es Deep Fusion? Básicamente es un experimento de Apple para cambiar la forma en que sus dispositivos hacen las fotografías. Ya hemos comentado que si nosotros hacemos una fotografía actualmente, gran parte del trabajo lo hace el ISP a través de algoritmos no actualizables que están ya grabados en el propio chip. La misma premisa por el que el procesador de imagen de una cámara profesional más nueva es mejor que uno de un modelo más antiguo y más rápido. Algo básico.

Pero, ¿y si creamos una nueva forma de procesar que sea 100% software aprovechando la potencia que ha conseguido tener el A13 Bionic en su motor neuronal? ¿Y si esa forma permitiera hacer, no solo fotos mejores porque los algoritmos son más eficientes, si no además tenemos una forma de mejorar y que hagan mejores fotos con una simple actualización de software?

Esa es la clave de Deep Fusion. En contra del modo Smart HDR que usa el procesador de imagen para conseguir la fusión de las fotografías, que se apoya en el motor neuronal para determinadas decisiones concretas en un proceso fijo, Deep Fusion es un proceso 100% software basado en un modelo entrenado que le dice al sistema cómo debe hacer la fusión de las 9 fotografías que le proporciona el ISP. 8 de diferentes exposiciones y una novena de mayor tiempo de exposición.

En Applesfera

iOS 13.2 ya disponible: Deep Fusion, actualización del HomePod, mejoras en Siri y más

Cuando vamos a hacer una fotografía, el iPhone ya está calculando para mostrarnos lo más parecido posible en tiempo real cómo quedará nuestra foto y que podamos encuadrar y demás. Lo hace con el feed de 60 imágenes por segundo que vemos mientras decidimos pulsar el disparo.

Mientras decidimos la foto y pensamos en pulsar, el dispositivo guarda en un buffer de forma continua 8 fotografías que van entrando y saliendo de una cola de almacenamiento. Cuando pulsamos, las 8 que haya en ese momento en la cola se sirven al motor neuronal, junto a una de mayor tiempo de exposición que hace cuando pulsamos en el disparo. Con esas 9 fotografías, el motor neuronal ejecuta un modelo entrenado que coge los píxeles, los analiza, busca el mejor y prioriza la búsqueda de la nitidez. Así de simple y complejo a la vez.

Y repito, ¿para qué hace Apple este nuevo modo? Porque este modo será el que sustituya al chip que ahora mismo se encarga de procesar las fotografías. Apple está empezando a probar un nuevo método que aprovechará la actual potencia de los procesadores y motores neuronales (que obviamente irán cada vez a más) donde un chip A13 es capaz de “casi” obtener este resultado en tiempo real. De esta forma, Apple tiene una nueva forma de procesar las fotografías, mejor porque la eficiencia de un modelo entrenado siempre es superior a un algoritmo convencional y sus capacidades son mucho más altas, además de actualizable en el tiempo.

Un modelo entrenado de Machine Learning, es exponencialmente más potente y eficiente que cualquier algoritmo de programación convencional, siempre y cuando su entrenamiento le proporcione una capacidad bien ajustada.

Un algoritmo convencional que procesa unos datos tiene las limitaciones de los procesos estándar que contiene y que un programador le puso. Un algoritmo de Machine Learning es mucho más eficiente porque está generado a partir de millones y millones de preguntas que el propio modelo se hizo al ser entrenado, obteniendo respuestas y estas van mucho más allá de las posibles respuestas o decisiones que un ser humano tiene la capacidad de codificar en un algoritmo. Por eso la revolución del Machine Learning es tan poderosa.

Si Apple, con Deep Fusion, tiene la forma de hacer fotografías de mejor calidad basadas 100% en inteligencia artificial, pudiendo actualizar los algoritmos de modelos antiguos con el paso del tiempo y no tener que dejarlos con la capacidad que tenían y punto, está ganando muchos puntos y le permite empezar una era de mejora exponencial muy interesante.

Eso es Deep Fusion para Apple: el siguiente paso en la fotografía computacional y la nueva forma que tendremos a partir de ahora de hacer mejores fotografías. Ahora mismo, como no, estamos probando la beta de todo esto. Y si las pruebas salen bien y la gente está contenta con el resultado (porque también Apple quiere probarlo) en una o dos generaciones daremos el salto y el proceso actual fijo de HDR que depende de un chip evolucionará a un proceso 100% software que dependerá de este Deep Fusion. El tiempo nos dirá.