Home / Inteligência Artificial / Caveman: O Plugin que Corta 75% dos Seus Tokens de IA

Inteligência Artificial

Caveman: O Plugin que Corta 75% dos Seus Tokens de IA

11/04/2026

Se a sua software house está gastando R$5.000, R$10.000 ou mais por mês com tokens de agentes de IA, eu preciso te contar uma história sobre um garoto de 19 anos que resolveu esse problema fazendo a IA falar como homem das cavernas.

Sim, você leu certo. Homem das cavernas.

E não, não é piada. É ciência. Um paper acadêmico de março de 2026 provou que forçar LLMs a serem breves melhora a acurácia em 26 pontos percentuais. A verbosidade que a gente aceita como “normal” na verdade introduz erros.

Na minha experiência com 300+ software houses, a conta de IA é o novo “servidor que ninguém sabe quanto custa”. Todo mundo usa, ninguém controla. E agora um plugin gratuito pode cortar essa conta pela metade — ou mais.

O Que é o Caveman

Caveman é uma skill/plugin open-source para Claude Code (e Codex, Cursor, Copilot, Windsurf, Cline) que faz o agente de IA se comunicar de forma telegráfica — eliminando artigos, filler words, pleasantries e hedging enquanto mantém 100% de precisão técnica.

O tagline já diz tudo: “why use many token when few token do trick” (referência ao Kevin do The Office).

Números do repo:

20.000+ stars em ~7 dias (de zero)
652 forks, 18 contributors
#1 no Hacker News (883 pontos)
#1 no GitHub Trending
Criado em 04/abril/2026
Licença MIT — 100% grátis

O Problema: Você Está Pagando por “Sure! I’d Be Happy to Help”

Vamos ser diretos: toda vez que seu agente de IA responde com “Sure! I’d be happy to help you with that. The issue you’re experiencing is most likely caused by your authentication middleware…”, você está pagando por 30+ tokens de puro nada.

Multiplica isso por centenas de interações por dia, por todos os devs do time, e a conta fica bonita. Eu conheço software houses pagando R$15.000/mês só em tokens de coding agents.

O Caveman transforma aquela resposta inteira em: “Bug in auth middleware. Token expiry check use < not <=. Fix:”

Mesma informação. Sem o teatro.

Como Funciona (Simples como Pedra)

Instalar leva 30 segundos:

claude plugin marketplace add JuliusBrussee/caveman
claude plugin install caveman@caveman

Ativar: digite /caveman ou simplesmente diga “caveman mode”.

Desativar: “stop caveman” ou “normal mode”.

O Caveman tem 3 modos de compressão:

Lite — Remove filler, mantém gramática intacta
Full (padrão) — Elimina artigos e fragmenta frases
Ultra — Compressão telegráfica máxima

Além do modo principal, vem com 3 skills companheiras:

caveman-commit — Commits de no máximo 50 caracteres, seguindo Conventional Commits
caveman-review — Code reviews de 1 linha por observação
caveman-compress — Comprime arquivos de memória e contexto em ~45%

Detalhe importante: código, mensagens de erro e termos técnicos passam intocados. O Caveman só comprime a “conversa”, não a substância.

Os Números que Importam

O repositório inclui benchmarks reais com harness de avaliação reproduzível:

Tarefa	Tokens Normal	Tokens Caveman	Economia
React re-render bug	1.180	159	87%
Auth middleware fix	704	121	83%
PostgreSQL pool setup	2.347	380	84%
Git rebase explanation	702	292	58%
Security PR review	678	398	41%
Média	1.214	294	65%

O range vai de 22% a 87% dependendo da tarefa. Quanto mais “conversa” o agente normalmente gera, maior a economia.

Traduzindo em dinheiro: se a sua SH gasta US$2.000/mês em tokens, o Caveman pode reduzir para US$500-700/mês. Isso são US$15.000-18.000 de economia por ano. Com um plugin gratuito.

A Ciência Por Trás: Ser Breve Melhora a IA

Isso não é apenas economia — é melhoria de qualidade.

O paper “Brevity Constraints Reverse Performance Hierarchies in Language Models” (arXiv:2604.00025, março/2026, MD Azizul Hakim) avaliou 31 modelos de 0.5B a 405B parâmetros em 1.485 problemas e descobriu algo surpreendente:

Modelos grandes produzem outputs 59% mais longos que modelos menores
Mas com menos passos de raciocínio explícito
Forçar brevidade melhorou a acurácia em 26 pontos percentuais
Em 7,7% dos problemas, modelos menores superaram modelos 100x maiores — e a brevidade reverteu essa hierarquia

Ou seja: a verbosidade das IAs não é um recurso — é um bug. Modelos grandes “pensam em voz alta” com elaboração desnecessária que introduz erros. Quando você os força a ser concisos, eles ficam mais precisos.

O Caveman não é um hack de economia. É engenharia de prompt baseada em evidência.

Quem Criou Isso Tem 19 Anos

Julius Brussee é calouro em Data Science & AI na Leiden University, na Holanda. Aos 19 anos, já tem um currículo que muitos devs com 10 anos de experiência invejam:

Founding engineer da Stacklink (plataforma enterprise de RAG)
Criador do Revu (app macOS de estudo com spaced repetition e IA)
Fundou a Locked In (app iOS de produtividade com 100% de retenção na primeira semana)
Fundou a Neurabridge (consultoria de IA, reportada pelo The Economist)

E o detalhe que torna essa história mais interessante: o pai dele é Arjan Brussee, uma lenda do game dev. Arjan co-fundou a Guerrilla Games (Killzone, Horizon Zero Dawn), foi o programador principal do Jazz Jackrabbit na Epic Games nos anos 90, trabalhou na EA como produtor executivo de Battlefield: Hardline, co-fundou a Boss Key com Cliff Bleszinski, e hoje é Product Director do Unreal Engine na Epic Games.

Quando Arjan compartilhou o projeto do filho no LinkedIn, a publicação viralizou com dezenas de comentários. DNA de engenharia de verdade.

Como Usar na Sua Software House

Aqui vai o plano prático:

Instale em 30 segundos — Cada dev do time instala o plugin no Claude Code
Ative por padrão — Use o auto-loading hook para ativar caveman em toda sessão automaticamente
Combine com caveman-compress — Comprima os arquivos de memória do agente para economizar mais 45% de input tokens
Padronize commits — Use caveman-commit para commits curtos e consistentes no time todo
Meça a economia — Compare a conta de tokens antes e depois (o dashboard do Claude Code mostra isso)

O Caveman funciona em 6+ plataformas: Claude Code, OpenAI Codex, Cursor, GitHub Copilot, Windsurf e Cline. Se o seu time usa qualquer uma dessas, o plugin se aplica.

O Que Eu Penso

Eu adoro esse projeto por três motivos:

Primeiro, é a demonstração perfeita de que na era dos agentes de IA, os problemas mais valiosos não são sempre os mais complexos. Cortar tokens com uma skill de Markdown? Parece trivial. Mas é a diferença entre uma conta de IA sustentável e uma que come o lucro da operação.

Segundo, o timing é perfeito. Com o ecossistema de skills e plugins do Claude Code explodindo em 2026, estamos vendo um mercado inteiro se formar em torno de pequenas otimizações que, combinadas, transformam como software houses operam. O Caveman é a skill mais popular desse movimento — e por bons motivos.

Terceiro, um garoto de 19 anos, calouro de faculdade, criou algo que 20.000+ developers adotaram em uma semana. Isso é o futuro da engenharia de software: não importa sua idade ou seu diploma, importa o problema que você resolve.

Se a sua SH usa agentes de IA e ainda não controla o gasto com tokens, o Caveman é o primeiro passo. Grátis, MIT, instala em 30 segundos.

Caveman não burro. Caveman eficiente. Caveman falar o que precisa. Depois parar.

Sou Thulio, mentoro 300+ SHs desde 2016.

Marcado:Academia do Código caveman Claude Code coding agents economia faturamento software house ferramentas de produtividade open source Otimização de Tokens plugins

Thulio Bittencourt

Caveman: O Plugin que Corta 75% dos Seus Tokens de IA

O Que é o Caveman

O Problema: Você Está Pagando por “Sure! I’d Be Happy to Help”

Como Funciona (Simples como Pedra)

Os Números que Importam

A Ciência Por Trás: Ser Breve Melhora a IA

Quem Criou Isso Tem 19 Anos

Como Usar na Sua Software House

O Que Eu Penso

Seu Cliente Enterprise Só Usa Google Cloud e Você Só Sabe Configurar AWS? Um Wizard de 2 Minutos Resolve

Seu Cliente Enterprise Só Usa Google Cloud e Você Só Sabe Configurar AWS? Um Wizard de 2 Minutos Resolve

Deixe um Comentário Cancelar resposta

Caveman: O Plugin que Corta 75% dos Seus Tokens de IA

O Que é o Caveman

O Problema: Você Está Pagando por “Sure! I’d Be Happy to Help”

Como Funciona (Simples como Pedra)

Os Números que Importam

A Ciência Por Trás: Ser Breve Melhora a IA

Quem Criou Isso Tem 19 Anos

Como Usar na Sua Software House

O Que Eu Penso

Seu Cliente Enterprise Só Usa Google Cloud e Você Só Sabe Configurar AWS? Um Wizard de 2 Minutos Resolve

Seu Cliente Enterprise Só Usa Google Cloud e Você Só Sabe Configurar AWS? Um Wizard de 2 Minutos Resolve

Related Posts

Inteligência Artificial 2026-2028: O Triênio que Muda Tudo

Software House em 2026, 2027 e 2028: O Futuro é Agora e Quem Não ...

Vibe Coding em 2026: As Ferramentas de IA Que Transformam Qualque ...

Deixe um Comentário Cancelar resposta