Home / Claude Code / Seus 20 Devs Usam Claude Code e Você Não Sabe Quem Gasta Quanto? Um Header Resolve

Seus 20 Devs Usam Claude Code e Você Não Sabe Quem Gasta Quanto? Um Header Resolve

Seus 20 Devs Usam Claude Code e Você Não Sabe Quem Gasta Quanto? Um Header Resolve

Vou te contar uma coisa que deveria te tirar o sono: se você tem 10, 20, 50 devs usando Claude Code na sua software house agora, provavelmente não faz a menor ideia de quanto cada um gasta. Nem por sessão. Nem por projeto. Nem por squad.

E não é porque você é negligente. É porque até pouco tempo atrás, era impossível.

O billing da Anthropic te mostra o total. Ponto. Um número. Tipo olhar a conta de energia da empresa inteira e tentar adivinhar qual andar gasta mais. Na minha experiência com 300+ software houses, essa cegueira é a norma — e é exatamente o tipo de problema que engole margem sem você perceber.

A boa notícia? Desde a versão v2.1.86 do Claude Code, existe um header chamado X-Claude-Code-Session-Id que muda o jogo. Parece pouco. É tudo.

O que é o X-Claude-Code-Session-Id

A partir da v2.1.86, toda request que o Claude Code faz para a API da Anthropic agora carrega um header extra:

X-Claude-Code-Session-Id: <uuid-único-da-sessão>

Isso significa que qualquer proxy, gateway ou middleware que fique entre o Claude Code e a API consegue agrupar todas as requests de uma mesma sessão — sem precisar abrir e parsear o body de cada request.

Antes desse header, um proxy via requests anônimas. Sabia que alguém estava chamando a API, mas não conseguia conectar essas chamadas a uma sessão específica. Era como ter câmeras de segurança que gravam vultos sem identificar rostos.

Agora cada sessão tem uma identidade. E identidade é o primeiro passo para visibilidade.

A documentação oficial do LLM Gateway descreve o header assim:

“A unique identifier for the current Claude Code session. Proxies can use this to aggregate all API requests from a single session without parsing the request body.”

Por que isso importa mais do que parece

Vamos fazer uma conta rápida.

Dados atuais mostram que o Claude Code custa em média $6 por dev por dia em uso de API, com 90% dos devs ficando abaixo de $12/dia. Parece razoável, certo? Mas faça a multiplicação:

  • 20 devs × $6/dia × 22 dias úteis = $2.640/mês
  • Com picos de Opus: pode facilmente dobrar para $5.000+/mês

Agora a pergunta de $5.000: qual dev está em $3/dia e qual está em $25/dia? Qual projeto está consumindo 60% do budget? Qual squad está desperdiçando tokens refazendo trabalho?

Sem visibilidade por sessão, essas perguntas não têm resposta.

E o problema é maior do que o Claude Code. Segundo dados de 2026, shadow AI custa em média $412 mil por ano para empresas. Apenas 12% das empresas conseguem detectar todo uso de IA — as outras 88% têm pontos cegos. E 34% do gasto com shadow AI duplica ferramentas já aprovadas.

Na prática, você pode estar pagando duas vezes pela mesma coisa sem saber.

Como funciona na prática

O header sozinho não faz mágica. Ele é a chave que destrava três camadas de observabilidade:

Camada 1: LLM Gateway (Proxy)

Você coloca um proxy entre o Claude Code e a API. Os mais usados:

LiteLLM — proxy open-source em Python, suporta 100+ providers, tracking de custo por virtual key:

export ANTHROPIC_BASE_URL=https://seu-litellm:4000

Bifrost — gateway open-source em Go, alta performance, observabilidade nativa:

export ANTHROPIC_BASE_URL=https://seu-bifrost:8080

Kong AI Gateway — enterprise, plugin-based, analytics de tokens:

Com qualquer um deles, o X-Claude-Code-Session-Id permite agregar todas as requests de uma sessão sem parsing de body. O proxy sabe: “estas 47 requests vieram da mesma sessão de dev, custaram $3.20, consumiram 285K tokens de input e 42K de output.”

Nota de segurança: as versões 1.82.7 e 1.82.8 do LiteLLM (PyPI) foram comprometidas com malware que roubava credenciais. Se você instalou alguma delas, rotacione todas as credenciais imediatamente. A própria Anthropic alerta sobre isso na documentação oficial.

Camada 2: OpenTelemetry (Métricas e Eventos)

O Claude Code tem integração nativa com OpenTelemetry. Você ativa com uma variável:

export CLAUDE_CODE_ENABLE_TELEMETRY=1
export OTEL_METRICS_EXPORTER=otlp
export OTEL_LOGS_EXPORTER=otlp
export OTEL_EXPORTER_OTLP_ENDPOINT=http://seu-collector:4317

E recebe 8 métricas em tempo real:

Métrica O que mede
claude_code.cost.usage Custo em USD por request
claude_code.token.usage Tokens (input, output, cache read, cache creation)
claude_code.session.count Sessões iniciadas
claude_code.lines_of_code.count Linhas adicionadas/removidas
claude_code.commit.count Commits criados
claude_code.pull_request.count PRs criados
claude_code.active_time.total Tempo ativo (user vs CLI)
claude_code.code_edit_tool.decision Accept/reject de edições

Mais 5 tipos de eventos detalhados: prompts do usuário, resultados de tools, requests API, erros, e decisões de permissão.

Cada métrica e evento carrega session.id como atributo — o mesmo ID do header. Proxy e OTel falam a mesma língua.

Camada 3: Segmentação por Time

Aqui é onde a mágica acontece para software houses. Com OTEL_RESOURCE_ATTRIBUTES, você etiqueta cada dev:

export OTEL_RESOURCE_ATTRIBUTES="department=engineering,team.id=squad-erp,cost_center=projeto-abc"

Agora no seu Grafana, Datadog ou Honeycomb, você vê:

  • Squad ERP: $1.200/mês, 15 sessões/dia, 80% Sonnet
  • Squad Mobile: $800/mês, 8 sessões/dia, 30% Opus (por isso mais caro)
  • Dev João (solo): $400/mês — está no Opus full-time, precisa de coaching

E se você for admin, pode forçar essas configs via managed settings — o dev não consegue desligar:

{
  "env": {
    "CLAUDE_CODE_ENABLE_TELEMETRY": "1",
    "OTEL_METRICS_EXPORTER": "otlp",
    "OTEL_EXPORTER_OTLP_ENDPOINT": "http://collector.empresa.com:4317"
  }
}

Isso conecta direto com o que escrevi sobre managed-settings.d/ — governança de IA sem micromanagement.

O stack completo em 5 minutos

Se você quer sair do zero para visibilidade total, aqui está o caminho mínimo:

1. Proxy (2 minutos):

# LiteLLM básico
pip install litellm
litellm --model anthropic/claude-sonnet-4-6 --port 4000

# Nos devs:
export ANTHROPIC_BASE_URL=http://seu-litellm:4000

2. OpenTelemetry (1 minuto):

export CLAUDE_CODE_ENABLE_TELEMETRY=1
export OTEL_METRICS_EXPORTER=otlp
export OTEL_EXPORTER_OTLP_ENDPOINT=http://seu-collector:4317

3. Segmentação por time (1 minuto):

export OTEL_RESOURCE_ATTRIBUTES="team.id=squad-erp,cost_center=CC-042"

4. Dashboard (1 minuto): A Anthropic publicou o Claude Code ROI Measurement Guide com Docker Compose, Prometheus e templates prontos de relatórios. Também existem projetos da comunidade como claude-code-otel e agents-observe para visualização em tempo real.

Os números que deveriam preocupar todo dono de SH

Vou ser direto com os dados que coletei:

  • $412 mil/ano: custo médio de shadow AI para empresas (JumpCloud, 2026)
  • 12%: empresas que conseguem detectar todo uso de IA. As outras 88% têm pontos cegos
  • 34%: do gasto com shadow AI que duplica ferramentas já aprovadas
  • 40%: das empresas gastam mais de $250K/ano com LLMs
  • $492 milhões: mercado de AI governance em 2026, projetado para $1B em 2030
  • 70%: das interações com IA serão via SaaS embeddado até fim de 2026 (Gartner)

O padrão é claro: empresas estão gastando mais com IA a cada mês, com menos visibilidade a cada dia. E software houses que dependem de margem operacional não podem se dar ao luxo de voar cegas.

O que eu penso

Esse header é daquelas features que ninguém vai twittar sobre. Não é sexy. Não tem screenshot bonito. Não faz o dev coding 10x mais rápido.

Mas se você é o CEO de uma software house com 15+ devs usando Claude Code, essa é provavelmente a feature mais importante do ano pra você. Porque é a diferença entre “estamos gastando uns $3.000 por mês com IA, acho” e “o squad ERP gasta $1.200, o squad mobile gasta $800, e o João sozinho gasta $400 porque está no Opus full-time fazendo coisa que Sonnet resolve”.

O primeiro é achismo. O segundo é gestão.

E gestão é o que separa software houses que escalam de software houses que quebram.

Conclusão

O X-Claude-Code-Session-Id é uma linha de código na codebase do Claude Code. Mas é a linha que conecta proxy → sessão → dev → custo. Sem ela, você tem um dashboard de API genérico. Com ela, você tem observabilidade real por sessão.

Combine com OpenTelemetry para métricas detalhadas, um LLM gateway para controle centralizado, e managed settings para forçar a config no time inteiro. O stack está pronto. A documentação existe. Os dados mostram que quem não mede, paga mais.

Se você quer implementar esse nível de visibilidade na sua software house, comece pelo proxy. São 5 minutos que podem revelar milhares de reais de desperdício invisível.

Sou Thulio, mentoro 300+ SHs desde 2016.

Marcado:

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *