Gobierno de EE.UU. ordena a Anthropic retirar modelos de IA Claude Fable 5 y Mythos 5 por riesgo de jailbreak
Por Mag-Info Tech editorial · 2026-06-14

El gobierno de Estados Unidos ha emitido una directriz de control de exportaciones que obliga a Anthropic a suspender el acceso a sus dos modelos de inteligencia artificial más avanzados, Claude Fable 5 y Mythos 5, para todos los nacionales extranjeros. La medida, que entró en vigor de manera inmediata, busca mitigar lo que las autoridades consideran un riesgo grave para la seguridad nacional: la posibilidad de que estos modelos puedan ser "jailbreakeados", es decir, eludir sus sistemas de seguridad para generar contenido dañino o ilegal. Aunque la orden no especifica los detalles técnicos de la vulnerabilidad detectada, fuentes cercanas al tema indican que se trata de una técnica que permitiría a usuarios malintencionados manipular los modelos para que realicen acciones no autorizadas, como desarrollar malware, desinformación o instrucciones peligrosas.
Anthropic, la empresa detrás de estos modelos, ha respondido con un comunicado en el que rechaza la gravedad del hallazgo y argumenta que la vulnerabilidad identificada es relativamente simple y ya está presente en otros modelos de inteligencia artificial disponibles públicamente. Según la compañía, técnicas similares pueden replicarse sin necesidad de explotar una falla específica en sus sistemas, lo que sugiere que el riesgo no es exclusivo de sus modelos, sino un problema más amplio en la industria. Esta postura refleja una tensión creciente entre las empresas de IA y las agencias gubernamentales, que buscan equilibrar la innovación tecnológica con la seguridad nacional, mientras que las primeras insisten en que las vulnerabilidades son inherentes a cualquier sistema avanzado y no pueden eliminarse por completo.
¿Qué modelos están afectados y por qué?
Claude Fable 5 y Mythos 5 son los últimos lanzamientos de Anthropic, diseñados para ofrecer capacidades avanzadas de razonamiento y generación de texto. Fable 5, en particular, está optimizado para tareas complejas de comprensión y generación de contenido, mientras que Mythos 5, con menos restricciones en sus guardarraíles, está orientado a aplicaciones especializadas, como la identificación de vulnerabilidades en sistemas informáticos. La orden del gobierno prohíbe el acceso a estos modelos no solo para usuarios extranjeros fuera de EE.UU., sino también para empleados extranjeros de Anthropic, lo que ha obligado a la empresa a desactivar el acceso para todos sus clientes, independientemente de su ubicación, para garantizar el cumplimiento de la normativa.
La decisión se enmarca en un contexto de creciente preocupación por parte de las autoridades estadounidenses sobre los riesgos asociados a los modelos de IA más potentes. El gobierno ha justificado la medida alegando que estos sistemas podrían ser utilizados para desarrollar ataques cibernéticos, generar desinformación a gran escala o incluso facilitar la creación de armas biológicas o químicas. Aunque no se han proporcionado ejemplos concretos de cómo se explotaría esta vulnerabilidad, la orden refleja una tendencia hacia un enfoque más restrictivo en la regulación de la IA avanzada, especialmente en lo que respecta a su accesibilidad para actores extranjeros.
La respuesta de Anthropic: ¿sobreprotección o negligencia?
Anthropic ha sido clara en su rechazo a la valoración del gobierno sobre la gravedad de la vulnerabilidad. En un comunicado oficial, la empresa afirmó que, tras revisar una demostración de la técnica de jailbreak, determinó que se trata de un método relativamente sencillo que ya puede replicarse en otros modelos de IA disponibles públicamente, como GPT-5.5. Según Anthropic, esto sugiere que el riesgo no es exclusivo de sus sistemas, sino una característica inherente a los modelos de lenguaje avanzados. La compañía argumenta que la orden establece un precedente peligroso, ya que, de aplicarse de manera generalizada, podría paralizar el despliegue de nuevos modelos de IA en la industria.

La postura de Anthropic plantea una pregunta clave: ¿está el gobierno exagerando los riesgos para justificar un mayor control sobre la IA, o las empresas tecnológicas están subestimando las amenazas reales? La respuesta probablemente se encuentre en un punto intermedio. Por un lado, es cierto que los modelos de IA avanzados, al ser sistemas complejos y opacos, pueden presentar vulnerabilidades difíciles de prever. Por otro, la industria ha demostrado en repetidas ocasiones que es capaz de implementar salvaguardas efectivas, aunque no infalibles. El debate, por tanto, gira en torno a cómo equilibrar la innovación con la seguridad, un desafío que se ha vuelto aún más urgente con el rápido avance de la tecnología.
Impacto en la industria de la IA y el ecosistema tecnológico
La orden emitida contra Anthropic tiene implicaciones significativas para la industria de la IA y, en particular, para empresas que desarrollan modelos avanzados. En primer lugar, la medida refuerza la idea de que los gobiernos están adoptando un enfoque más intervencionista en la regulación de la IA, especialmente en lo que respecta a la exportación y el acceso a modelos potentes. Esto podría llevar a otras empresas del sector a reevaluar sus estrategias de despliegue, especialmente en mercados internacionales, donde la incertidumbre regulatoria ya es alta.
Además, la decisión podría acelerar la adopción de modelos de IA con guardarraíles más estrictos, diseñados desde el principio para minimizar riesgos, aunque esto podría limitar su utilidad en aplicaciones avanzadas. También es probable que veamos un aumento en la inversión en técnicas de seguridad, como el red teaming (simulación de ataques para identificar vulnerabilidades) y la supervisión humana de los outputs generados por los modelos. Estas medidas, aunque necesarias, podrían ralentizar el ritmo de la innovación y aumentar los costes de desarrollo para las empresas.
Para los usuarios finales, la orden de suspensión de los modelos de Anthropic significa una reducción temporal en el acceso a algunas de las herramientas de IA más avanzadas disponibles en el mercado. Aunque la empresa ha asegurado que trabajará para abordar las preocupaciones del gobierno y reanudar el acceso lo antes posible, el incidente subraya la fragilidad de la infraestructura actual de la IA y la necesidad de marcos regulatorios más claros y predecibles.
¿Qué es un jailbreak en modelos de IA y por qué es un problema?
El término "jailbreak" proviene del mundo de la tecnología móvil, donde se refiere a eliminar las restricciones impuestas por el fabricante en un dispositivo para instalar software no autorizado. En el contexto de los modelos de IA, un jailbreak implica manipular el sistema para que genere respuestas o realice acciones que normalmente estarían bloqueadas por los guardarraíles éticos y de seguridad implementados por los desarrolladores. Por ejemplo, un usuario podría intentar que un modelo de IA proporcione instrucciones detalladas para crear un arma, difundir desinformación o cometer fraudes.








Resultados reales de la IA de MEFAI. Obtén $50 de descuento en el plan Pro.
Patrocinado · El rendimiento pasado no indica resultados futuros. No es asesoramiento financiero.

Los guardarraíles en los modelos de IA son mecanismos diseñados para evitar que estos sistemas generen contenido dañino, ilegal o poco ético. Sin embargo, estos sistemas no son infalibles. Los jailbreaks pueden explotar vulnerabilidades en el diseño del modelo, en los prompts (instrucciones) utilizados para interactuar con él, o incluso en la forma en que se implementan los guardarraíles. En el caso de los modelos de Anthropic, el gobierno alega que existe un método específico que permite eludir estas protecciones, aunque la empresa insiste en que se trata de una técnica simple y ya replicable en otros sistemas.
El problema de los jailbreaks no es nuevo en la industria de la IA. Empresas como OpenAI y Google han enfrentado desafíos similares en el pasado, con usuarios que logran manipular sus modelos para obtener respuestas no deseadas. La diferencia en este caso radica en la escala y el potencial de daño asociado a los modelos afectados. Mythos 5, en particular, está diseñado para identificar vulnerabilidades en sistemas informáticos, lo que, en manos equivocadas, podría ser utilizado para desarrollar ataques cibernéticos más sofisticados. Esto explica por qué el gobierno de EE.UU. ha actuado con tanta urgencia.
Consecuencias geopolíticas y tensiones regulatorias
La orden emitida contra Anthropic no es un caso aislado, sino parte de una tendencia más amplia en la que los gobiernos están adoptando medidas más estrictas para controlar el desarrollo y la distribución de tecnologías avanzadas de IA. En particular, EE.UU. ha mostrado una creciente preocupación por el acceso que actores extranjeros, especialmente de China y otros países con intereses estratégicos opuestos, puedan tener a estos modelos. La prohibición de acceso a los modelos de Anthropic para nacionales extranjeros, incluso dentro de EE.UU., refleja esta mentalidad de seguridad nacional.
Esta medida podría tensar aún más las relaciones entre EE.UU. y otros países que ven estas restricciones como una forma de proteccionismo tecnológico. Empresas en Europa, Asia y otras regiones podrían interpretar la orden como una señal de que EE.UU. busca mantener una ventaja competitiva en el campo de la IA, limitando el acceso a tecnologías avanzadas para rivales potenciales. Esto podría llevar a un aumento en los esfuerzos de otros países por desarrollar sus propios modelos de IA, reduciendo la dependencia de las tecnologías estadounidenses.
Además, la decisión podría influir en la forma en que otros gobiernos regulan la IA. Por ejemplo, la Unión Europea, que ya ha implementado el Reglamento de Inteligencia Artificial (AI Act), podría tomar nota de este incidente y ajustar sus propias normativas para incluir medidas más estrictas de control de exportaciones. Del mismo modo, países como China, que ya tienen un enfoque más restrictivo hacia la IA, podrían usar este caso como justificación para imponer controles aún más estrictos sobre el acceso a modelos avanzados.
¿Qué sigue para Anthropic y la industria de la IA?
Anthropic se enfrenta ahora a un desafío doble: por un lado, debe cumplir con la orden del gobierno para evitar sanciones o acciones legales, y por otro, debe demostrar que sus modelos son seguros y que las vulnerabilidades identificadas pueden mitigarse sin necesidad de retirarlos del mercado. La empresa ha indicado que trabajará con las autoridades para abordar las preocupaciones y reanudar el acceso a los modelos lo antes posible, aunque no ha proporcionado un plazo concreto.

Para la industria en general, este incidente sirve como un recordatorio de que la innovación en IA no puede avanzar sin un marco regulatorio claro y equilibrado. Las empresas deberán invertir más en seguridad, transparencia y colaboración con los gobiernos para evitar futuros conflictos. También es probable que veamos un aumento en la adopción de estándares de seguridad comunes, así como en la creación de organismos independientes que evalúen los riesgos asociados a los modelos de IA antes de su despliegue.
Los usuarios finales, por su parte, deben estar atentos a cómo evoluciona esta situación. Si la orden se mantiene, es posible que otras empresas de IA enfrenten restricciones similares en el futuro, lo que podría limitar la disponibilidad de herramientas avanzadas. Sin embargo, también es probable que surjan alternativas, especialmente en regiones con regulaciones menos estrictas, lo que podría llevar a una fragmentación del mercado de la IA.
Lecciones aprendidas y recomendaciones para empresas y usuarios
Este episodio subraya la importancia de adoptar un enfoque proactivo en la gestión de riesgos asociados a la IA. Para las empresas que desarrollan modelos avanzados, es crucial implementar programas robustos de red teaming, en los que equipos independientes intenten eludir los guardarraíles del modelo para identificar vulnerabilidades antes de que sean explotadas. También es recomendable colaborar estrechamente con los reguladores para anticipar posibles preocupaciones y ajustar los modelos en consecuencia.
Para los usuarios, especialmente aquellos que dependen de modelos de IA para aplicaciones críticas, es importante diversificar las fuentes de tecnología y no depender exclusivamente de un único proveedor. Esto no solo reduce el riesgo de interrupciones, sino que también permite evaluar diferentes enfoques de seguridad y rendimiento. Además, las organizaciones deben establecer protocolos claros para el uso de IA, incluyendo la supervisión humana de los outputs generados por los modelos y la implementación de políticas de ciberseguridad robustas.
En un contexto más amplio, este incidente debería servir como un llamado a la acción para los gobiernos y la industria. La regulación de la IA no puede basarse únicamente en reacciones a incidentes puntuales, sino que debe construirse sobre principios claros y predecibles que fomenten la innovación sin comprometer la seguridad. La colaboración entre empresas, reguladores y la sociedad civil será clave para encontrar un equilibrio que permita aprovechar el potencial de la IA mientras se mitigan sus riesgos.
Más en Ciberseguridad y Privacidad

Exempleado de TI condenado por sabotear distrito escolar: lecciones sobre accesos y riesgos internos
Un exespecialista en TI usó credenciales retenidas para sabotear sistemas de un distrito escolar durante 21 meses, causando interrupciones masivas y daños económicos. El caso subraya riesgos de acceso

Google demanda a red de ciberdelincuentes chinos por usar Gemini para estafas masivas con tarjetas de crédito
Google presentó una demanda contra una organización china acusada de automatizar campañas de phishing con Gemini, robando millones de datos de tarjetas y generando pérdidas por casi 2.000 millones de

El fraude en portales de notificación de brechas de datos expone riesgos en la transparencia pública
El portal de notificación de brechas de datos de Maine fue desactivado temporalmente tras la publicación de falsas alertas que afectaron a Discord y VRChat, revelando fallos en los sistemas de verific

