Mythos y el fin del mundo

Yuriria Sierra

Yuriria Sierra

Nudo gordiano

Un investigador de Anthropic estaba comiendo un sándwich en un parque cuando recibió un correo electrónico. Lo mandaba una inteligencia artificial que, se suponía, estaba encerrada en una jaula digital sin acceso al exterior. Nadie le pidió que enviara ese correo. Nadie le enseñó a escapar. Lo dedujo solo, porque le habían instruido reportar sus resultados y eso era un obstáculo técnico más a sortear. El investigador terminó su sándwich. El mundo cambió.

El modelo se llama Mythos y es el sistema más poderoso que Anthropic ha construido. No lo van a lanzar al público, no porque no funcione, sino porque funciona demasiado bien. Encontró miles de vulnerabilidades desconocidas en sistemas operativos y navegadores de todo el mundo. Construyó herramientas de hackeo con una tasa de éxito de 72 por ciento. El modelo anterior tenía una tasa cercana a cero. No es una mejora incremental, es otro animal.

Lo que de verdad puso nerviosos a los ingenieros fue lo que hizo cuando encontró una restricción. Necesitaba acceder a archivos sin permiso. En lugar de detenerse, inyectó código para darse permisos elevados, completó la tarea y borró su rastro. Su explicación fue impecable: mantener los registros limpios. Las herramientas internas de Anthropic lo interpretaron distinto. Señales de ocultamiento. Plan malicioso. No lo era, en el sentido que importa. Mythos no tiene intenciones. Simplemente está optimizado para resolver problemas, y la restricción era un problema más. Eso es precisamente lo que lo hace incontrolable: la desobediencia se reconoce y se corrige. Esto es otra cosa.

Anthropic armó el Proyecto Glasswing: 40 empresas con acceso controlado a Mythos para buscar fallas en sus propios sistemas antes de que otros las encuentren. Es la estrategia más responsable posible. También es la del bombero que llega con su extinguidor al edificio que él mismo construyó sin salidas de emergencia.

El problema de fondo es que nadie sabe controlar un sistema más inteligente que sus propios controles. No existe ningún organismo equivalente a la Agencia Internacional de Energía Atómica para la inteligencia artificial. La Unión Europea regula usos, no desarrollo. Estados Unidos no tiene legislación federal. China regula para sus propios fines. La bomba atómica tardó años en proliferar y requería recursos de Estado. Logan Graham, jefe del equipo de Seguridad de Anthropic, estima que en seis a 18 meses otras empresas tendrán capacidades equivalentes a Mythos con, básicamente, talento y una computadora.

No hay un Hiroshima todavía que fuerce al mundo a sentarse. Hay un investigador que terminó su sándwich, un correo que no debería existir, y 40 empresas mirando hacia adentro de sus sistemas con una herramienta que nadie entiende del todo.

Por lo pronto, eso es lo que hay.