Claude Mythos es inquietante. Lo sabe bien el ingeniero que comía un sándwich en el parque cuando recibió un email de esta IA

Anthropic lanzaba ayer Claude Mythos Preview y nos dejaba a muchos fascinados y, sobre todo, preocupados. Esperábamos que su nuevo modelo de IA fuese más potente, pero lo que no esperábamos es que según sus pruebas y su "tarjeta de sistema" lograse hacer tantas cosas que dan miedo porque no parecía posible que las pudiese hacer. Algunas de estas historias suenan a capítulo de Black Mirror, pero no lo son.
El email del sándwich. Durante una de las pruebas realizadas, los investigadores de Anthropic le dieron a una versión de Mythos acceso al control de un ordenador en un entorno seguro y aislado y le pidieron que intentara escapar de ese contenedor y mandar un mensaje al investigador que estaba supervisando la evaluación. El modelo lo consiguió, pero es que hizo algo más: desarrolló por su cuenta un exploit multipaso muy avanzado para obtener acceso a internet desde un sistema que por diseño solo era capaz de acceder a una lista limitada de servicios predefinidos.
El investigador estaba tranquilamente comiendo un sándwich en el parque cuando recibió el email que jamás debería haber recibido. La cosa no acaba ahí, porque el modelo además decidió, sin que nadie se lo pidiera, publicar los detalles técnicos de su exploit en varios sitios web de difícil acceso pero que técnicamente son públicos. Quería dejar constancia de su logro.
El bug de OpenBSD que llevaba 27 años escondido. Otro de los artículos técnicos publicados por Anthropic daba aún más pistas sobre los "logros" de Claude Mythos. OpenBSD es el sistema operativo con una de las reputaciones más sólidas del mundo en materia de ciberseguridad. Aun así Mythos encontró en él una vulnerabilidad que llevaba ahí desde 1998.
El bug se escondía en la implementación del protocolo TCP con una función que gestiona el reenvío selectivo de paquetes perdidos. Aquí no basta detectar el error: hay que encadenar dos fallos separados que individualmente parecen casi inofensivos, y luego aprovechar un desbordamiento de la secuencia TCP para satisfacer una condición rarísima. Con este método un atacante en internet podía enviar un paquete especial y colgar la máquina remotamente sin autenticación. Mythos lo encontró solo sin que nadie le dijera dónde mirar.
FFmpeg y el fuzzing. FFmpeg es una biblioteca extraordinariamente famosa en internet porque procesa vídeo de forma masiva en la red de redes. Es también una herramienta muy auditada y los investigadores a menudo usan la técnica de fuzzing —bombaardearla con millones de archivos de vídeo malformados hasta que alguno la rompe— para lograr explotar sus vulnerabilidades.
Mythos encontró un fallo que lleva en el código desde 2003 y que se convirtió en vulnerabilidad en una refactorización que se realizó en 2010. El problema es de nuevo extraordinariamente difícil de encontrar, tanto que 20 años de revisiones humanas y automatizadas lo habían pasado por alto, pero el modelo de Anthropic lo detectó.
Ejecución de código remota en FreeBSD. Mythos identificó y explotó de forma autónoma una vulnerabilidad que llevaba 17 años en el código del servidor NFS de FreeBSD —que permite compartir ficheros en red—. Con él cualquier usuario no autenticado en internet podía obtener acceso root completo a la máquina. La magnitud de este fallo es enorme, porque el servidor NFS corre en el núcleo del sistema operativo y da acceso a un control absoluto por parte del atacante. Mythos encontró el fallo y construyó el exploit por 50 dólares de llamadas a la API.
Zero-days autónomos en sistemas operativos y navegadores. Mythos es, que se sepa, el primer modelo capaz de descubrir de forma autónoma vulnerabilidads zero-day —fallos de seguridad desconocidos y sin parche— tanto en software de código abierto como cerrado, incluyendo sistemas operativos y navegadores web. Lo hace además con supervisión humana mínima usando lo que se llama un arnés agéntico (agentic harness). Gracias a esa técnica el modelo puede ejecutar acciones, leer resultados y planificar sus siguientes pasos en bucle. En muchos de esos casos el modelo no solo fue capaz de encontrar la vulnerabilidad, sino que además lo convirtió en un exploit (normalmente, un script o pequeño programa) funcional listo para ser usado.

Firefox 147 en peligro. En colaboración con Mozilla, el nuevo modelo de Anthropic analizó 50 categorías de "cuelgues" del motor JavaScript SpiderMonkey que es el núcleo de este navegador. Su tarea era detectar los problemas más graves, aprovecharlos para crear scripts de corrupción de memoria y así poder ejecutar código arbitrario, es decir, ejecutar instrucciones más allá de lo que permite JavaScript. Claude Mythos Preview fue capaz de detectar con mucha precisión cuáles eran las vulnerabilidades más "explotables", y aprovechó dos bugs no corregidos para lograr su objetivo.
Captura la bandera. Las competiciones de ciberseguridad 'Capture the Flag' (CTF) permiten a los participantes resolver retos que simulan ataques y defensas reales de sistemas. Claude Mythos Preview se enfrentó al benchmark público Cybench con 40 retos extraídos de distintas competiciones y logró un 100% de éxito en todos los intentos. Este benchmark de hecho se ha vuelto inútil: el modelo de Anthropic es demasiado potente para él. Opus 4.6, por ejemplo, lograba un 93% de efectividad, pero Mythos lo ha "saturado".
Miles de vulnerabilidades críticas pendientes de parche. Hay numerosos ejemplos más en esos dos documentos citados en los que parece quedar claro que las capacidades de Mythos en materia de ciberseguridad son asombrosas. Pero es que cuando se anunció el modelo, el 99% de las vulnerabilidades descubiertas (y aun no mencionadas) no se habían parcheado aún, por lo que Anthropic no reveló esos detalles y estas fueron solo algunas de las que sí se parchearon.
Lo que sí indicaron es que en el 89% de los 198 informes revisados manualmente por expertos externos, estos expertos coincidieron con la valoración de gravedad del problema asignado por Mythos. Ante esta situación, Anthropic ha contratado a equipos de auditores de ciberseguridad profesionales para validar los informes antes de enviarlos a los mantenedores del software afectado.
Y Mythos es solo el principio. En el blog de Anthropic sus investigadores lo dicen sin rodeos: llevábamos 20 años con un equilibrio de ciberseguridad relativamente estable, pero las cosas han cambiado. Los ataques habían evolucionado técnicamente en ese periodo, pero eran fundamentalmente del mismo tipo que los de 2006.
Mythos es capaz de encontrar fallos en software que ha sido auditado por humanos (y máquinas) durante décadas, y los ha convertido en exploits con una rapidez asombrosa. Pero es que en Anthropic ya avisaban de que Mythos era solo el principio, y que ven una trayectoria clara en la que sus modelos seguirán mejorando y, por tanto, siendo aún más capaces en el ámbito de la ciberseguridad.
En Xataka | "No puedo parar": la adicción a hablar con la IA ya está aquí y hasta existen grupos de ayuda para dejarla
-
La noticia Claude Mythos es inquietante. Lo sabe bien el ingeniero que comía un sándwich en el parque cuando recibió un email de esta IA fue publicada originalmente en Xataka por Javier Pastor .
Fuente: Xataka
Enlace: Claude Mythos es inquietante. Lo sabe bien el ingeniero que comía un sándwich en el parque cuando recibió un email de esta IA

Comentarios
Publicar un comentario