Claude detectó 10.000 fallas críticas en un mes y los humanos no dan abasto

Un modelo de Anthropic que todavía no se hizo público encontró más de diez mil vulnerabilidades de gravedad alta o crítica en un solo mes, dentro del código de unas cincuenta organizaciones asociadas. El modelo, llamado internamente Claude Mythos Preview, fue apuntado contra librerías de código abierto, navegadores e infraestructura que sostiene una parte enorme del internet moderno. El resultado da vuelta a una vieja regla de la seguridad informática. Encontrar las fallas ya no es la parte difícil. La parte difícil es arreglarlas.

El programa se llama Project Glasswing y Anthropic lo lanzó aproximadamente un mes antes de publicar esta primera tanda de cifras. Alrededor de cincuenta organizaciones aceptaron escanear su propio código de producción con el modelo. Cloudflare lo soltó sobre sus sistemas críticos y reportó cerca de dos mil hallazgos, cuatrocientos calificados como altos o críticos. Mozilla lo corrió contra Firefox y sacó 271 fallas distintas para la próxima versión mayor del navegador, más de diez veces lo que el mismo equipo había producido en la versión anterior usando Claude Opus 4.6, el modelo público.

Qué significan esas cifras depende del software que uses. El modelo descubrió una falla de falsificación de certificados en wolfSSL, una librería de criptografía que está dentro de miles de millones de routers, hubs de hogar inteligente y controladores industriales. La vulnerabilidad ya tiene identificador CVE, CVE-2026-5194, y el parche está en distribución. El mismo barrido sobre más de mil proyectos de código abierto generó unas 6.202 vulnerabilidades altas o críticas. No son hallazgos académicos sobre bancos de pruebas. Son errores en el código real que maneja tus conexiones cifradas, tus pestañas del navegador y las máquinas al otro lado del cable.

Mythos Preview no es una versión de Claude que se pueda comprar. Anthropic decidió no publicarla. La empresa argumenta que el mismo modelo que encuentra vulnerabilidades a esta escala se convertiría, en las manos equivocadas, en una fábrica industrial de exploits. “Ninguna empresa”, dice el anuncio, “desarrolló salvaguardas lo bastante sólidas para impedir que estos modelos sean usados con malicia”. Por ahora Mythos Preview vive dentro de un programa controlado, con socios verificados y un canal coordinado de divulgación.

¿Qué tipo de errores está encontrando el modelo? Errores de manejo de memoria en librerías de C y C++, fallas de gestión de certificados como la de wolfSSL, errores de lógica en implementaciones de protocolos de red y huecos de autenticación en servicios muy usados. Son las categorías que provocaron décadas de brechas reales. El UK AI Security Institute reportó que Mythos Preview es el primer modelo que logró resolver de extremo a extremo sus dos simulaciones de polígono cibernético, entornos controlados que imitan flujos completos de ataque. La firma independiente XBOW lo calificó como un “salto significativo” frente al trabajo anterior, con lo que describió como “una precisión absolutamente sin precedentes”.

La siguiente pregunta, para cualquiera que trabajó con escáneres automáticos, es cuántos de esos hallazgos son reales. Empresas de seguridad independientes revisaron 1.752 de los reportes calificados como altos o críticos. Cerca del 90,6 por ciento, 1.587 de ellos, resultaron ser vulnerabilidades legítimas. Es una señal mucho más limpia que la tasa habitual de ruido del fuzzing o de las herramientas de búsqueda por patrones, y Cloudflare informó que la tasa de falsos positivos del modelo, en sus propias pruebas, fue mejor que la de los miembros humanos de su equipo de red team. Pero todavía significa que aproximadamente uno de cada diez avisos es falsa alarma. A esta escala son alrededor de mil no-fallas en la pila, cada una de ellas un texto que un humano todavía tiene que leer y descartar.

El problema más difícil es lo que pasa una vez que se reporta una falla real. Al momento de esta primera actualización, solo 75 de las 530 vulnerabilidades altas o críticas comunicadas a los mantenedores estaban parcheadas. El arreglo promedio tarda alrededor de dos semanas. Algunos mantenedores de código abierto, según se reportó desbordados, le pidieron a Anthropic que bajara el ritmo de divulgación. “El progreso en seguridad del software solía estar limitado por la velocidad con que podíamos encontrar nuevas vulnerabilidades”, escribe la empresa. “Ahora está limitado por la velocidad con que podemos verificarlas, comunicarlas y parcharlas”.

Para un usuario común, la conclusión práctica no es glamorosa. El software que usas hoy, quizás el navegador donde cargaste esta página, casi seguro contiene fallas críticas que una inteligencia artificial ya conoce y que los humanos todavía no arreglaron. La divulgación coordinada asume que el parche llega antes que el anuncio público, y ese orden solo se sostiene cuando los parches llegan a tiempo. Project Glasswing, por ahora, está anclado en Estados Unidos y Reino Unido. Cloudflare, Mozilla, el UK AI Security Institute y XBOW son los participantes con nombre propio. No existe un programa equivalente de divulgación coordinada en la mayoría de los demás países. Si las fallas que el modelo detecta en stacks de software brasileños, mexicanos, indios, japoneses o coreanos van a recibir la misma urgencia es una pregunta abierta.

Anthropic afirma que Project Glasswing está sumando socios. El modelo Mythos Preview sigue fuera del mercado y la empresa no dio fecha para una publicación abierta; cualquier despliegue más amplio requeriría, según su propio criterio actual, salvaguardas que todavía no existen. Se espera una segunda actualización más adelante en 2026. La métrica a seguir no será cuántas fallas puede encontrar una IA. Será cuántas de ellas tuvieron tiempo de arreglar los humanos del otro lado.

Etiquetas: tech-en1, Anthropic, Claude, AI security, Project Glasswing, Cloudflare