Seus 20 Devs Usam Claude Code e Você Não Sabe Quem Gasta Quanto? Um Header Resolve
Vou te contar uma coisa que deveria te tirar o sono: se você tem 10, 20, 50 devs usando Claude Code na sua software house agora, provavelmente não faz a menor ideia de quanto cada um gasta. Nem por sessão. Nem por projeto. Nem por squad.
E não é porque você é negligente. É porque até pouco tempo atrás, era impossível.
O billing da Anthropic te mostra o total. Ponto. Um número. Tipo olhar a conta de energia da empresa inteira e tentar adivinhar qual andar gasta mais. Na minha experiência com 300+ software houses, essa cegueira é a norma — e é exatamente o tipo de problema que engole margem sem você perceber.
A boa notícia? Desde a versão v2.1.86 do Claude Code, existe um header chamado X-Claude-Code-Session-Id que muda o jogo. Parece pouco. É tudo.
O que é o X-Claude-Code-Session-Id
A partir da v2.1.86, toda request que o Claude Code faz para a API da Anthropic agora carrega um header extra:
X-Claude-Code-Session-Id: <uuid-único-da-sessão>
Isso significa que qualquer proxy, gateway ou middleware que fique entre o Claude Code e a API consegue agrupar todas as requests de uma mesma sessão — sem precisar abrir e parsear o body de cada request.
Antes desse header, um proxy via requests anônimas. Sabia que alguém estava chamando a API, mas não conseguia conectar essas chamadas a uma sessão específica. Era como ter câmeras de segurança que gravam vultos sem identificar rostos.
Agora cada sessão tem uma identidade. E identidade é o primeiro passo para visibilidade.
A documentação oficial do LLM Gateway descreve o header assim:
“A unique identifier for the current Claude Code session. Proxies can use this to aggregate all API requests from a single session without parsing the request body.”
Por que isso importa mais do que parece
Vamos fazer uma conta rápida.
Dados atuais mostram que o Claude Code custa em média $6 por dev por dia em uso de API, com 90% dos devs ficando abaixo de $12/dia. Parece razoável, certo? Mas faça a multiplicação:
- 20 devs × $6/dia × 22 dias úteis = $2.640/mês
- Com picos de Opus: pode facilmente dobrar para $5.000+/mês
Agora a pergunta de $5.000: qual dev está em $3/dia e qual está em $25/dia? Qual projeto está consumindo 60% do budget? Qual squad está desperdiçando tokens refazendo trabalho?
Sem visibilidade por sessão, essas perguntas não têm resposta.
E o problema é maior do que o Claude Code. Segundo dados de 2026, shadow AI custa em média $412 mil por ano para empresas. Apenas 12% das empresas conseguem detectar todo uso de IA — as outras 88% têm pontos cegos. E 34% do gasto com shadow AI duplica ferramentas já aprovadas.
Na prática, você pode estar pagando duas vezes pela mesma coisa sem saber.
Como funciona na prática
O header sozinho não faz mágica. Ele é a chave que destrava três camadas de observabilidade:
Camada 1: LLM Gateway (Proxy)
Você coloca um proxy entre o Claude Code e a API. Os mais usados:
LiteLLM — proxy open-source em Python, suporta 100+ providers, tracking de custo por virtual key:
export ANTHROPIC_BASE_URL=https://seu-litellm:4000
Bifrost — gateway open-source em Go, alta performance, observabilidade nativa:
export ANTHROPIC_BASE_URL=https://seu-bifrost:8080
Kong AI Gateway — enterprise, plugin-based, analytics de tokens:
Com qualquer um deles, o X-Claude-Code-Session-Id permite agregar todas as requests de uma sessão sem parsing de body. O proxy sabe: “estas 47 requests vieram da mesma sessão de dev, custaram $3.20, consumiram 285K tokens de input e 42K de output.”
Nota de segurança: as versões 1.82.7 e 1.82.8 do LiteLLM (PyPI) foram comprometidas com malware que roubava credenciais. Se você instalou alguma delas, rotacione todas as credenciais imediatamente. A própria Anthropic alerta sobre isso na documentação oficial.
Camada 2: OpenTelemetry (Métricas e Eventos)
O Claude Code tem integração nativa com OpenTelemetry. Você ativa com uma variável:
export CLAUDE_CODE_ENABLE_TELEMETRY=1
export OTEL_METRICS_EXPORTER=otlp
export OTEL_LOGS_EXPORTER=otlp
export OTEL_EXPORTER_OTLP_ENDPOINT=http://seu-collector:4317
E recebe 8 métricas em tempo real:
| Métrica | O que mede |
|---|---|
claude_code.cost.usage |
Custo em USD por request |
claude_code.token.usage |
Tokens (input, output, cache read, cache creation) |
claude_code.session.count |
Sessões iniciadas |
claude_code.lines_of_code.count |
Linhas adicionadas/removidas |
claude_code.commit.count |
Commits criados |
claude_code.pull_request.count |
PRs criados |
claude_code.active_time.total |
Tempo ativo (user vs CLI) |
claude_code.code_edit_tool.decision |
Accept/reject de edições |
Mais 5 tipos de eventos detalhados: prompts do usuário, resultados de tools, requests API, erros, e decisões de permissão.
Cada métrica e evento carrega session.id como atributo — o mesmo ID do header. Proxy e OTel falam a mesma língua.
Camada 3: Segmentação por Time
Aqui é onde a mágica acontece para software houses. Com OTEL_RESOURCE_ATTRIBUTES, você etiqueta cada dev:
export OTEL_RESOURCE_ATTRIBUTES="department=engineering,team.id=squad-erp,cost_center=projeto-abc"
Agora no seu Grafana, Datadog ou Honeycomb, você vê:
- Squad ERP: $1.200/mês, 15 sessões/dia, 80% Sonnet
- Squad Mobile: $800/mês, 8 sessões/dia, 30% Opus (por isso mais caro)
- Dev João (solo): $400/mês — está no Opus full-time, precisa de coaching
E se você for admin, pode forçar essas configs via managed settings — o dev não consegue desligar:
{
"env": {
"CLAUDE_CODE_ENABLE_TELEMETRY": "1",
"OTEL_METRICS_EXPORTER": "otlp",
"OTEL_EXPORTER_OTLP_ENDPOINT": "http://collector.empresa.com:4317"
}
}
Isso conecta direto com o que escrevi sobre managed-settings.d/ — governança de IA sem micromanagement.
O stack completo em 5 minutos
Se você quer sair do zero para visibilidade total, aqui está o caminho mínimo:
1. Proxy (2 minutos):
# LiteLLM básico
pip install litellm
litellm --model anthropic/claude-sonnet-4-6 --port 4000
# Nos devs:
export ANTHROPIC_BASE_URL=http://seu-litellm:4000
2. OpenTelemetry (1 minuto):
export CLAUDE_CODE_ENABLE_TELEMETRY=1
export OTEL_METRICS_EXPORTER=otlp
export OTEL_EXPORTER_OTLP_ENDPOINT=http://seu-collector:4317
3. Segmentação por time (1 minuto):
export OTEL_RESOURCE_ATTRIBUTES="team.id=squad-erp,cost_center=CC-042"
4. Dashboard (1 minuto): A Anthropic publicou o Claude Code ROI Measurement Guide com Docker Compose, Prometheus e templates prontos de relatórios. Também existem projetos da comunidade como claude-code-otel e agents-observe para visualização em tempo real.
Os números que deveriam preocupar todo dono de SH
Vou ser direto com os dados que coletei:
- $412 mil/ano: custo médio de shadow AI para empresas (JumpCloud, 2026)
- 12%: empresas que conseguem detectar todo uso de IA. As outras 88% têm pontos cegos
- 34%: do gasto com shadow AI que duplica ferramentas já aprovadas
- 40%: das empresas gastam mais de $250K/ano com LLMs
- $492 milhões: mercado de AI governance em 2026, projetado para $1B em 2030
- 70%: das interações com IA serão via SaaS embeddado até fim de 2026 (Gartner)
O padrão é claro: empresas estão gastando mais com IA a cada mês, com menos visibilidade a cada dia. E software houses que dependem de margem operacional não podem se dar ao luxo de voar cegas.
O que eu penso
Esse header é daquelas features que ninguém vai twittar sobre. Não é sexy. Não tem screenshot bonito. Não faz o dev coding 10x mais rápido.
Mas se você é o CEO de uma software house com 15+ devs usando Claude Code, essa é provavelmente a feature mais importante do ano pra você. Porque é a diferença entre “estamos gastando uns $3.000 por mês com IA, acho” e “o squad ERP gasta $1.200, o squad mobile gasta $800, e o João sozinho gasta $400 porque está no Opus full-time fazendo coisa que Sonnet resolve”.
O primeiro é achismo. O segundo é gestão.
E gestão é o que separa software houses que escalam de software houses que quebram.
Conclusão
O X-Claude-Code-Session-Id é uma linha de código na codebase do Claude Code. Mas é a linha que conecta proxy → sessão → dev → custo. Sem ela, você tem um dashboard de API genérico. Com ela, você tem observabilidade real por sessão.
Combine com OpenTelemetry para métricas detalhadas, um LLM gateway para controle centralizado, e managed settings para forçar a config no time inteiro. O stack está pronto. A documentação existe. Os dados mostram que quem não mede, paga mais.
Se você quer implementar esse nível de visibilidade na sua software house, comece pelo proxy. São 5 minutos que podem revelar milhares de reais de desperdício invisível.
Sou Thulio, mentoro 300+ SHs desde 2016.




