Home / Claude Code / Sua Quota do Claude Code Acabava em 1 Hora? Um Bug Queimava 250 Mil Chamadas por Dia

Sua Quota do Claude Code Acabava em 1 Hora? Um Bug Queimava 250 Mil Chamadas por Dia

Imagina o seguinte cenário: seu dev chega de manhã, abre o Claude Code, começa a trabalhar num módulo complexo. Depois de 40 minutos, a sessão trava. Ele reinicia. Trava de novo. No fim do dia, a quota do plano Max — aquela de R$ 500/mês — acabou. E ele não entende por quê.

Esse cenário não é hipotético. Aconteceu com 1.279 sessões do Claude Code ao redor do mundo, ao mesmo tempo. Um bug no sistema de autocompact criava um loop infinito que queimava tokens sem parar, em silêncio. Sem aviso. Sem erro. Só tokens sumindo.

Na minha experiência com mais de 300 software houses, esse tipo de bug invisível é o mais perigoso. Não é o bug que quebra a tela — é o que come seu orçamento por baixo enquanto todo mundo acha que está tudo funcionando.

O Que É o Autocompact (e Por Que Ele Existe)

Antes de entender o bug, preciso te explicar como o Claude Code gerencia memória.

Toda conversa com o Claude Code tem um limite de contexto — uma janela de tokens que o modelo consegue processar de uma vez. Quando sua sessão fica longa demais (muitos arquivos lidos, muitas edições, muito histórico), o sistema precisa “comprimir” a conversa para liberar espaço.

Esse processo se chama autocompact. Ele é automático: quando a conversa atinge ~83,5% da janela de contexto, o Claude Code resume as mensagens antigas e libera espaço para você continuar trabalhando. Na teoria, é invisível. Você nem percebe que aconteceu.

O problema é quando o autocompact falha.

O Bug: Loop Infinito de Compactação

O que acontecia era o seguinte: em certas condições, o autocompact tentava comprimir a conversa, falhava, e tentava de novo. E de novo. E de novo. Sem limite.

Os números são absurdos:

  • 1.279 sessões experimentaram 50+ falhas consecutivas de compactação
  • Uma única sessão chegou a 3.272 tentativas de autocompact sem parar
  • No total, 250.000 chamadas de API eram desperdiçadas por dia globalmente
  • Usuários do plano Max 5x ($100/mês) queimavam a quota inteira em 1 hora — o normal seria 8 horas de trabalho
  • Um assinante Max 20x ($200/mês) viu o uso pular de 21% para 100% em um único prompt

Cada tentativa de compactação é uma chamada de API completa. O sistema manda o histórico da conversa, pede pro modelo resumir, recebe a resposta — e tudo isso conta no seu consumo de tokens. Quando isso acontece 3.272 vezes em sequência, é como deixar o chuveiro elétrico ligado o dia inteiro com ninguém em casa.

O pior: não tinha nenhum erro visível. O dev via a sessão “pensando” por mais tempo que o normal, talvez reiniciava, e seguia trabalhando. A quota sumia e ninguém conectava uma coisa com a outra.

A Causa: Compaction Death Spiral

O bug tinha um nome técnico: compaction death spiral (espiral de morte da compactação).

Acontecia principalmente em dois cenários:

1. Sistema pesado demais: Projetos com CLAUDE.md grandes (~32KB), múltiplos servidores MCP configurados, e muitas regras de contexto podiam ocupar 86,5% da janela de contexto só com instruções do sistema. Sobrava ~27K tokens para trabalho real. Qualquer leitura de arquivo já disparava compactação — que falhava porque não tinha como comprimir o que era instrução fixa. E o loop começava.

2. Buffer mal calculado: O buffer de autocompact era de ~45K tokens (22,5% da janela). Em sessões longas com muitas ferramentas ativas, esse buffer não era suficiente para completar a compactação com sucesso, gerando falha após falha.

A issue #24677 no GitHub documenta um caso real: 6 compactações em 3,5 minutos, sem cooldown entre elas. A issue #9579 reporta spikes massivos de uso de tokens por causa do loop.

O Fix: 3 Linhas de Código

A Anthropic resolveu com elegância brutal. O fix inteiro foi:

MAX_CONSECUTIVE_AUTOCOMPACT_FAILURES = 3

Um circuit breaker. Depois de 3 falhas consecutivas de compactação, o sistema para. Não tenta mais. Mostra um erro acionável pro dev em vez de continuar queimando tokens em silêncio.

É o padrão de engenharia mais básico que existe para sistemas distribuídos — e que estava faltando. O changelog v2.1.89 de 1 de abril de 2026 registra: “Fixed autocompact thrash loop — circuit breaker stops after 3 attempts.”

3 linhas. 250 mil chamadas de API por dia economizadas.

O Problema Maior: IA Sem FinOps É Cartão Corporativo Sem Limite

Esse bug do Claude Code é sintoma de algo que estou vendo em praticamente toda software house que usa IA de forma séria: ninguém monitora o custo real.

Os dados são claros:

  • 70% dos tokens em sessões de coding agents são desperdício — lendo arquivos que não precisava, tentando abordagens que não funcionam, e sim, loops internos como o autocompact (Morph LLM, 42 sessões analisadas)
  • 87% dos tokens vão para encontrar código, não para escrever código
  • Uma análise de 220 loops de agentes presos mostrou desperdício de 30K-75K tokens por tentativa falha
  • Um fix de typo de uma linha consumiu 21.000 input tokens ($0,06 no Sonnet)
  • O “Predictability Gap” de custos de IA gerou $400 milhões em cloud spend não planejado no Fortune 500 (AnalyticsWeek)

E no mundo real? Devs gastam $200-500/mês em API billing do Claude Code. Heavy users passam de $800/mês. Roda 5 agentes em paralelo num codebase grande e são $50-100 por hora em tokens.

A Anthropic mesmo admitiu publicamente que usuários estavam atingindo limites de uso “muito mais rápido do que esperado”. O DevClass cobriu a história. Não era só o autocompact — mas o autocompact era um dos maiores contribuintes silenciosos.

O Que o FinOps Foundation Está Dizendo

O FinOps Foundation reporta que 98% das organizações agora gerenciam alguma forma de gasto com IA (era 63% no ano anterior). Mas apenas 44% têm guardrails financeiros implementados.

Traduzindo: quase todo mundo sabe que gasta com IA, mas menos da metade tem algum controle real sobre quanto.

Para software houses, isso é especialmente crítico. Agents de IA fazem 3-10x mais chamadas de LLM que chatbots simples. Um agent sem restrição resolvendo uma task de engenharia custa $5-8 por tarefa só em API. Dois agents da LangChain entraram num loop de conversa infinita que rodou por 11 dias e gerou uma conta de $47.000.

O padrão que a indústria está adotando: circuit breakers em tudo. Se um agent faz mais de N chamadas sem progresso, mata o processo. Se o custo passa de X por sessão, para. Se a compactação falha 3 vezes, desiste.

O Que Isso Significa Para Sua Software House

Se você tem 20 devs usando Claude Code no plano Max, você precisa saber de três coisas:

1. Atualize para v2.1.89+. O circuit breaker do autocompact só existe a partir dessa versão. Se algum dev está numa versão anterior, ele está vulnerável ao loop. Verifique com claude --version.

2. Use /cost para monitorar. O comando /cost com breakdown por modelo e cache hits (artigo anterior) é sua primeira linha de defesa. Se um dev mostra consumo anômalo, investigue.

3. Implemente guardrails de custo. Não confie que a ferramenta vai se auto-regular. O autocompact era “automático” e foi exatamente isso que criou o problema — automação sem limite é o oposto de controle. Use managed-settings.d para distribuir configurações padrão que incluam limites sensatos.

Também vale conectar isso com o stack de otimização que já cobrimos: sessões longas com performance quadrática foram corrigidas na mesma janela de versões. O problema é sistêmico: sessões longas são armadilhas de custo se você não tem as versões certas.

O Que Eu Penso

Esse bug me incomodou mais do que deveria. Não pelo bug em si — bugs acontecem. Me incomodou porque ele expõe uma verdade desconfortável: a maioria das software houses está adotando IA sem nenhuma governança de custo.

Você compra 20 licenças Max a R$ 500/mês cada. São R$ 10.000/mês. Depois descobre que 3 devs estavam em versões com o bug do autocompact e queimaram 40% da quota em loops invisíveis. Outros 5 usam sessões longas sem saber que a performance era quadrática antes do fix. No fim do mês, você olha a conta e pensa “IA é caro demais” — quando na verdade, IA é barata, o desperdício é que é caro.

3 linhas de código. MAX_CONSECUTIVE_AUTOCOMPACT_FAILURES = 3. Isso separava uma ferramenta que queimava sua quota de uma ferramenta que funciona. Se a Anthropic não tivesse corrigido, quanto tempo levaria pra você perceber?

Token economics não é infraestrutura. É P&L. E se você não está tratando assim, está pagando a conta sem conferir o extrato.


Sou Thulio, mentoro 300+ SHs desde 2016.

Se você quer implementar governança de IA na sua software house com quem já viu os erros (e os acertos) de centenas de empresas, fala comigo na Software House Exponencial.

Marcado:

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *