Cariño, he encogido a la IA: que ocupe poco puede hacerla más rápida, más ecológica y más segura para la privacidad del usuario

El procesamiento de lenguaje natural es el campo de la computación que, en los últimos tiempos, está viendo surgir los mayores modelos de inteligencia artificial jamás creados (es decir, aquellos con un mayor número de parámetros y cuyo entrenamiento, consecuentemente, requiere de más tiempo y capacidad de cómputo) .

Hace ahora un año, Google lanzó BERT, una IA especializada en la comprensión de frases complejas, cuyo modelo más complejo constaba de 340 millones de parámetros: el gasto eléctrico necesario para entrenarlo equivalía al de un hogar estadounidense promedio durante 50 días. En ese momento, BERT era la 'ballena azul' de los modelos de IA...

...pero su estancia en dicho puesto fue breve. Tan sólo cuatro meses más tarde, OpenAI publicaba su 'peligroso' generador de textos fake creíbles conocido como GPT-2, que ya contaba con 1.500 millones de parámetros. Y la cosa se nos ha terminado de ir de las manos con el lanzamiento de MegatronLM, el más reciente modelo de IA creado por Nvidia, que cuenta con 8.300 millones de parámetros.

En Xataka

Llevamos años usando mal las redes neuronales: ahora sabemos cómo hacerlas hasta 10 veces más pequeñas sin perder rendimiento

Hace unos meses, un estudio de la Universidad de Massachusets analizó la huella de carbono de dichos modelos: calcularon que entrenar BERT había supuesto un gasto equivalente al de un vuelo de ida y vuelta entre Nueva York y San Francisco. Mejor no pensemos en la 'huella' que tendría MegatronLM. Según exponían los investigadores en el paper:

"Adiestrar un modelo de última generación requiere de recursos informáticos sustanciales que demandan un considerable consumo energético, con el coste económico y medioambiental que eso conlleva".

"Investigar y desarrollar nuevos modelos multiplica estos costes cientos de veces al requerir un reentrenamiento para experimentar con nuevas arquitecturas e hiperparámetros".

De continuar profundizando en esta tendencia, la principal consecuencia de ello sería -dejando a un lado la huella de carbono- impulsar la concentración de la capacidad investigadora sobre inteligencia artificial en manos de un pequeño grupo de grandes compañías con los recursos suficientes como para desarrollar modelos tan costosos.

En Xataka Ciencia

Ya es hora de calcular las emisiones de CO2 que provoca la Inteligencia Artificial: tanto como cinco coches

Como decía Schumacher, "lo pequeño es hermoso"

Por ello, muchos investigadores se han embarcado en la tarea de buscar métodos que permitan reducir el tamaño de éstos sin ver mermadas también sus capacidades.

Un reciente logro de dicha tarea ha sido 'TinyBERT', una versión de BERT desarrollada por investigadores de Huawei que alcanza prácticamente el mismo nivel de comprensión del lenguaje que su 'hermano mayor' pese a ser 7,5 veces más pequeño; también es casi 10 veces más rápido que el original.

Un día después de publicarse el paper de TinyBERT, un equipo de investigadores de Google publicaban otro explicando cómo han logrado otra versión de BERT 60 veces más pequeña, aunque su comprensión del lenguaje sea algo peor que la del modelo 'maestro'.

En ambos 'papers', los investigadores recurren a distintas variaciones de una técnica de compresión común conocida como "destilación de conocimiento", basada en recurrir al modelo grande que deseamos reducir (el "maestro") para entrenar un modelo más pequeño (el "alumno") a su imagen: se introducen los mismos datos de entrada en ambos y luego se ajusta la configuración del 'alumno' hasta que sus resultados coinciden con lo del maestro.

En Xataka Móvil

Las NPU cobran más sentido con el nuevo giro de la IA de Google: de la nube al bolsillo

Semanas antes de la publicación de ambos artículos, Google AI ya había marcado el camino con el lanzamiento de ALBERT (siglas de 'A Lite BERT' o 'Un BERT ligero'), desarrollado mediante técnicas similares una vez los investigadores se dieron cuenta de que, a partir de cierto límite, aumentar el número de capas ocultas en el modelo BERT original no sólo no mejoraba su rendimiento sino que lo empobrecía.

Pero, ¿qué logramos con esto, más allá de reducir el consumo eléctrico a la hora de entrenar los modelos de IA? ¿Cómo repercute esto sobre el usuario? Muy sencillo: un modelo de IA de pequeño tamaño es mucho más versátil que uno grande a la hora de ejecutarse en una amplia gama de dispositivos, y deja de depender en exclusiva de su ejecución en la nube.

Así, podrían estar integrados en dispositivos móviles y gadgets, lo que conocemos como 'edge computing', ganando rapidez de respuesta (al no tener que estar conectándose a un servidor remoto) y protección de la privacidad (los datos del usuario nunca saldrán de su dispositivo).

Pensemos en las posibilidades que esto abre para los sistemas de traducción, corrección y transcripción mediante IA, o para los asistentes digitales tipo Alexa, o...

Vía | MIT Technology Review

Imagen | Pixabay