Google ha logrado que la IA consuma hasta seis veces menos memoria. Micron, Samsung y SK Hynix lo están pagando muy caro

Llevamos meses envueltos en la crisis de la memoria, pero quizás haya una salida. La semana pasada Google Research publicó un estudio en el que desvelaba una técnica llamada TurboQuant. Se trata de un algoritmo de compresión capaz de comprimir la memoria de trabajo de los modelos de IA hasta seis veces sin pérdida apreciable de calidad o rendimiento. Fantásticas noticias para los usuarios finales, que ven una luz al final del túnel, pero terribles para los fabricantes, a los que se les puede acabar esta época dorada.

Expliquemos qué es eso del KV cache. Para entender TurboQuant hay que entender qué es esa memoria que logra comprimir. Cuando un modelo de lenguaje procesa una conversación larga, necesita recordar el contexto. Cada token que se procesa queda almacenado en la llamada KV cache, una especie de memoria de trabajo que crece a medida que conversamos. Cuanto más larga es la conversación, más memoria necesita el modelo.

Comprimiendo que es gerundio. Es uno de los principales cuellos de botella en la etapa de inferencia de IA (es decir, cuando usamos los modelos), y un de los motivos por los que los centros de datos necesitan tanta memoria RAM o HBM. TurboQuant hace uso de un método de cuantización vectorial a esa caché para lograr comprimirla manteniendo la precisión del modelo.

Captura De Pantalla 2026 03 30 A Las 8 50 54

Pied Piper. Nada más aparecer este estudio de Google comenzaron las analogías con la trama de la serie 'Silicon Valley'. En ella la startup ficticia de la trama lograba desarrollar un algoritmo de compresión llamado Pied Piper extraordinariamente eficiente que amenazaba con revolucionar la industria tecnológica. Estos días en las redes sociales aparecieron múltiples referencias a la serie, que ya había sido referenciada como visionaria por reflejar lo que está pasando con una exactitud espectacular aun cuando la serie era una comedia.

Seis veces menos memoria. El paper de Google Research afirma que este método es capaz de reducir la KV cache seis veces sin diferencia apreciable en el rendimiento en conversaciones largas. Los investigadores presentarán sus resultados en un evento el mes que viene y explicarán los dos métodos que permiten ponerla en práctica. Si confirman lo que ya han adelantado, las implicaciones son enormes: menos memoria para inferencia significa que los centros de datos pueden hacer lo mismo con mucho menos hardware/memoria.

El momento DeepSeek de Google. El descubrimiento ha hecho que algunos analistas califiquen esto como el "momento DeepSeek" de Google. Hace un año la startup china DeepSeek lanzó un modelo de IA que competía con los mejores pero que había costado mucho menos desarrollar. Eso sacudió la industria, y ahora volvemos a un logro técnico que apunta a lo mismo. En IA hacer lo mismo con menos es crucial, dado los ingentes recursos que necesita esta tecnología. Hay quienes ya han hecho pruebas preliminares con TurboQuant y han confirmado que efectivamente el método funciona.

Micron, Samsung y SK Hynix lo pagan caro. El impacto de esta técnica puede ser enorme, y eso ya se ha empezado a notar en las valoraciones de las acciones en bolsa de los fabricantes de memorias DRAM y HBM. Empresas como Micron, Samsung, SK Hynix, SanDisk o Kioxia cayeron de forma notable la semana pasada desde sus recientes máximos. El 18 de marzo rondaba los 471 dólares, y hoy sus acciones están a 357 dólares, lo que supone una asombrosa caída del 24,2%. Lo mismo ha pasado con el resto de fabricantes, que ya estaban cayendo desde esa fecha, pero que se han acelerado en esa caída con el lanzamiento de TurboQuant.

Pero. La técnica se puede aplicar teóricamente solo a la fase de inferencia, pero la fase de entrenamiento de modelos de IA no se ve afectada por esta técnica de compresión. Así pues, durante la fase de entrenamiento se seguirán necesitando cantidades ingentes de memoria. Además tendremos que esperar a que las empresas de IA efectivamente comiencen a aplicar dicho sistema si se confirma que funciona, y será entonces cuando podamos ver el impacto real. Teóricamente esto dará mucho margen de maniobra a las grandes tecnológicas, que podrán reducir aún más los precios por tokens, pero está por ver si lo hacen.

Captura De Pantalla 2026 03 30 A Las 9 39 58

Las memorias RAM bajan de precio. El impacto de TurboQuant ha sido también claro en los precios de los módulos de memoria, que han bajado de forma apreciable en precio. Por ejemplo, los módulos Corsair Vengeance DDR5 32 GB 6000MHz (2x16GB) estaban a 489,59 euros en Amazon hasta hace unas semanas según CamelCamelCamel, pero ahora mismo están a 339,89 euros, una rebaja notable. Es cierto que no todos los componentes están bajando igual, pero efectivamente sí hay casos en los que las rebajas parecen estar produciéndose.

En Xataka | La crisis de la RAM se está llevando por delante todos los planes de Valve con su Steam Machine

-
La noticia Google ha logrado que la IA consuma hasta seis veces menos memoria. Micron, Samsung y SK Hynix lo están pagando muy caro fue publicada originalmente en Xataka por Javier Pastor .

Fuente: Xataka
Enlace: Google ha logrado que la IA consuma hasta seis veces menos memoria. Micron, Samsung y SK Hynix lo están pagando muy caro

Buscar este blog

Blog de Renzo Torres Cabrera

Google ha logrado que la IA consuma hasta seis veces menos memoria. Micron, Samsung y SK Hynix lo están pagando muy caro

Comentarios

Publicar un comentario