GPT-5.5 iguala modelo da Anthropic em testes de cybersegurança

O GPT-5.5 resolveu um dos testes mais difíceis de cybersegurança em apenas 10 minutos e 22 segundos. O custo? Meros 1,73 dólares em chamadas de API. A OpenAI lançou o modelo publicamente na semana passada, e agora testes do Instituto Britânico de Segurança em IA (AISI) revelam que ele alcançou desempenho equivalente ao Mythos Preview, da Anthropic, que havia sido apresentado como uma ameaça cybernética sem precedentes.

O que os testes revelaram

Desde 2023, o AISI submete modelos de IA de ponta a 95 desafios diferentes de Capture the Flag. Essas provas testam capacidades como engenharia reversa, exploração de vulnerabilidades web e criptografia. Nas tarefas de nível “Especialista”, o GPT-5.5 obteve aprovação em 71,4% dos casos, ligeiramente acima dos 68,6% do Mythos Preview, embora essa diferença esteja dentro da margem de erro estatístico.

Em uma tarefa particularmente complexa que exigia construir um disassembler para decodificar um binário Rust, o GPT-5.5 levou apenas 10 minutos e 22 segundos, sem qualquer assistência humana, custando 1,73 dólar. O AISI não revelou quanto tempo o Mythos Preview levou para a mesma tarefa.

The Last Ones: a tarefa que nenhum modelo conseguia completar

Ambos os modelos também foram testados no cenário “The Last Ones” (TLO), uma simulação de ataque de extração de dados em 32 etapas contra uma rede corporativa. O GPT-5.5 conseguiu sucesso em 3 de 10 tentativas. O Mythos Preview obteve 2 de 10. O detalhe impressionante: nenhum modelo anterior havia completado essa tarefa uma única vez.

Apesar do avanço, tanto o GPT-5.5 quanto o Mythos Preview ainda falham na simulação “Cooling Tower”, que imita uma tentativa de sabotagem do software de controle de uma usina de energia. Todos os modelos testados até hoje também não conseguem completar esse desafio.

Uma tendência, não uma revolução de um modelo só

Os resultados sugerem que o Mythos Preview não representou “um avanço específico de um modelo”, segundo o AISI. Para o instituto, o que estamos vendo é “um subproduto de melhorias gerais em autonomia de longo prazo, raciocínio e codificação” que afetam vários modelos simultaneamente.

Em entrevista recente ao podcast Core Memory, o CEO da OpenAI, Sam Altman, criticou o que chamou de “marketing baseado em medo” na promoção de capacidades de IA. As descobertas do AISI parecem dar razão a essa crítica: se vários modelos atingem resultados semelhantes, o argumento de uma ameaça singular perde força.

Por que isso importa

O resultado mais surpreendente não é que uma IA consegue invadir sistemas. Modelos de linguagem já demonstravam capacidades nesse campo. O verdadeiro significado está na combinação de competência, velocidade e baixo custo. Gastar menos de dois dólares para resolver um desafio que exigiria semanas de trabalho de um especialista humano levanta questões sobre como sociedades devem se preparar para um futuro onde tais ferramentas estão amplamente disponíveis.

O AISI decidiu publicar os resultados integrais dos testes, incluindo descrições detalhadas das tarefas e metodologias. A transparência contrasta com a abordagem da Anthropic, que restringiu o acesso inicial do Mythos Preview apenas a “parceiros críticos da indústria”.

Enquanto isso, a corrida armamentista em IA continua. O próximo capítulo dessa disputa pode vir de modelos ainda não anunciados. Os testes do AISI mostram que a fronteira entre “ameaça teórica” e “capacidades reais” nunca foi tão tênue.

Matéria original: https://arstechnica.com/ai/2026/05/amid-mythos-hyped-cybersecurity-prowess-researchers-find-gpt-5-5-is-just-as-good/