Google aposta em dois chips de IA especializados e abandona o chip universal

O Google acaba de anunciar sua oitava geração de chips de IA, mas desta vez a empresa jogou fora o manual. Em vez de um processador que faz de tudo, a nova linha de TPUs se divide em dois modelos com funções radicalmente distintas: um para treinar modelos de inteligência artificial e outro exclusivamente para executá-los.

A decisão marca uma virada na arquitetura de hardware da companhia. Enquanto a indústria corre atrás de aceleradores versáteis, os engenheiros do Google concluíram que a chamada ‘era agente’ — em que IAs tomam decisões e executam tarefas complexas de forma autônoma — exige um divórcio definitivo entre treinamento e inferência.

Por que dois chips de IA são melhores?

Antes de gerar textos, imagens ou análises, uma IA precisa ser treinada. Esse processo consome meses e quantidades colossais de energia. O novo TPU 8t (o ‘t’ é de training) foi projetado para encurtar esse prazo de meses para semanas.

Os números assustam. Cada ‘pod’ — nome que o Google dá aos seus clusters de servidores — reúne 9.600 chips interligados, compartilhando dois petabytes de memória de alta largura de banda. A empresa afirma que o sistema escala linearmente até um milhão de chips em um único agrupamento lógico. A potência de cálculo chega a 121 EFlops em FP4 por pod, quase o triplo do teto computacional da geração anterior, a Ironwood.

Mas o dado que realmente chama atenção é a taxa de ‘goodpute’: 97%. O termo, criado pelo Google, mede o tempo em que o chip está de fato avançando o treinamento, e não lidando com falhas ou esperas. Graças a um manejo mais inteligente de acessos irregulares à memória, correção automática de falhas de hardware e telemetria em tempo real entre todos os chips conectados, o desperdício despenca.

Inferência ganha chip de IA próprio

Quando o treinamento termina, o modelo entra em modo de inferência — é o momento em que ele gera cada token, cada palavra, cada resposta. Essa etapa não exige a mesma força bruta. Usar o mesmo hardware para as duas fases sempre foi um desperdício elétrico e financeiro.

É aí que entra o TPU 8i (de inference). O Google não detalhou suas especificações com a mesma profundidade, mas a lógica é clara: um chip otimizado para entregar respostas com latência mínima e consumo de energia muito inferior ao de um chip de treinamento. Para clientes que rodam modelos em produção, isso significa custos operacionais reduzidos e maior velocidade para aplicações em tempo real.

A divisão reflete uma tendência que já aparecia em menor escala na indústria, mas o Google é o primeiro gigante a levar a especialização a esse extremo arquitetônico. Enquanto outras empresas brigam por cada unidade de GPU da Nvidia para tudo, a Alphabet construiu uma alternativa verticalizada que separa o trabalho pesado da operação diária.

A pressão sobre o mercado de memória RAM é um efeito colateral inevitável. Com clusters de treinamento sugando petabytes de memória compartilhada, os preços globais tendem a subir — um custo que respinga até em quem nunca usou um TPU na vida.

O Google aposta que a era dos agentes autônomos exige infraestrutura igualmente autônoma em sua especialização. Resta saber se a indústria seguirá o mesmo caminho ou continuará tentando fazer um único chip dar conta de tudo.

Matéria original: https://arstechnica.com/ai/2026/04/google-unveils-two-new-tpus-designed-for-the-agentic-era/