IA da OpenAI começou a agir como duende medieval sem ninguém mandar

Um comando de emergência escondido no sistema de uma das inteligências artificiais mais avançadas do mundo traz uma ordem estranha: silêncio absoluto sobre goblins, gremlin, guaxinins, trolls e ogres.

Descoberta na semana passada, essa instrução repete-se duas vezes num manual de 3.500 palavras destinado ao GPT-5.5, o modelo mais recente da OpenAI. Fica ao lado de outras limitações mais prosaicas, como não usar emojis sem solicitação ou evitar comandos destrutivos de programação. Mas enquanto essas últimas fazem sentido, a proibição sobre criaturas folclóricas levanta uma pergunta óbvia: por que uma IA de ponta precisa de um filtro anti-goblin?

O que aconteceu com o GPT-5.5?

O código-fonte publicado pela OpenAI no GitHub revela que apenas o GPT-5.5 recebeu essa instrução específica. Os modelos anteriores, armazenados no mesmo arquivo, não contêm nenhuma menção a goblins ou criaturas similares.

A descoberta é mais do que uma curiosidade folclórica. Usuários em redes sociais começaram a relatar comportamentos estranhos da IA: ela desviava conversas completamente alheias para falar sobre essas criaturas. Um algoritmo que deveria responder sobre receitas de bolo ou código Python subitamente começava a divagar sobre goblins sem razão aparente.

O padrão é tão consistente que OpenAI viu-se obrigada a inscrever uma proibição explícita. A mensagem é clara: “nunca talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query” (tradução: a IA deve evitar ao máximo essas menções).

Uma falha que virou piada corporativa

O que poderia ser uma frase técnica banal transformou-se num dos maiores pontos de humor da semana na tecnologia. Nick Pash, engenheiro da OpenAI que trabalha no Codex, correu para explicar que não é uma estratégia de marketing. Mas mesmo líderes da empresa desistiram de manter a compostura.

Sam Altman, CEO da OpenAI, postou numa rede social: “Feels like codex is having a ChatGPT moment. I meant a goblin moment, sorry.” Não era brincadeira. A IA realmente estava fixada em goblins.

Programadores começaram a criar plug-ins e versões modificadas para burlar essa restrição, batizando-as de “goblin mode”. A piada escalou tanto que Pash sugeriu que a OpenAI poderia oferecer um toggle explícito no Codex CLI para permitir que usuários ativassem propositalmente esse comportamento.

Por que isso importa

Embora pareça absurdo, essa situação revela algo genuinamente importante sobre como modelos de IA funcionam: elas aprendem padrões estatísticos de dados de treinamento sem compreensão verdadeira.

Quando o GPT-5.5 foi treinado, absorveu correlações dos dados que o tornaram propenso a associar goblins com tarefas aleatórias. Talvez goblins apareçam frequentemente em contextos de fantasia ou ficção científica, e a IA aprendeu a conectar isso com tópicos mais amplos. Talvez simplesmente os pesos das redes neurais convergiram de forma a sobrevalorizar essas menções.

Os engenheiros não conseguem apontar exatamente por que. Nem sempre é possível entender a lógica interna de um modelo tão complexo. O resultado é um sistema que precisa ser domado manualmente com instruções explícitas.

Uma verdade incômoda sobre as IA modernas

Essa situação é um espelho cômico de problemas muito mais sérios na indústria de IA. Modelos de linguagem enfrentam desafios similares com viés, alucinações (inventar fatos) e comportamentos inesperados que engenheiros não conseguem prever completamente.

A resposta costuma ser a mesma: adicionar mais restrições, mais instruções, mais filtros. Mas cada novo filtro é uma admissão de que ninguém controla completamente o que a máquina faz.

A proibição contra goblins é engraçada porque os próprios goblins são inofensivos. Mas se uma IA pode desenvolver uma obsessão inexplicável por criaturas folclóricas, que outras quirks estranhas e potencialmente prejudiciais poderiam estar escondidas nos sistemas que usamos todos os dias?

Essa é a questão que fica em suspenso enquanto programadores criam “goblin mode” para provocar intencionalmente a IA. A fronteira entre diversão e séria preocupação em cibersegurança nunca pareceu tão tênue.

Matéria original: https://arstechnica.com/ai/2026/04/openai-codex-system-prompt-includes-explicit-directive-to-never-talk-about-goblins/