Claude Mythos es inquietante. Lo sabe bien el ingeniero que comía un sándwich en el parque cuando recibió un email de esta IA
Anthropic lanzaba ayer Claude Mythos Preview y nos dejaba a muchos fascinados y, sobre todo, preocupados. Esperábamos que su nuevo modelo de IA fuese más potente, pero lo que no esperábamos es que según sus pruebas y su "tarjeta de sistema" lograse hacer tantas cosas que dan miedo porque no parecía posible que las pudiese hacer. Algunas de estas historias suenan a capítulo de Black Mirror, pero no lo son. El email del sándwich . Durante una de las pruebas realizadas, los investigadores de Anthropic le dieron a una versión de Mythos acceso al control de un ordenador en un entorno seguro y aislado y le pidieron que intentara escapar de ese contenedor y mandar un mensaje al investigador que estaba supervisando la evaluación. El modelo lo consiguió, pero es que hizo algo más: desarrolló por su cuenta un exploit multipaso muy avanzado para obtener acceso a internet desde un sistema que por diseño solo era capaz de acceder a una lista limitada de servicios predefinidos. El in...