A voz da sua software house ainda depende de serviço pago?
Semana passada um CEO de software house me mandou uma mensagem: “Thulio, tô pagando $300/mês pra ElevenLabs pra narrar onboarding de 3 produtos. Tem como baratear isso?”
Eu respondi com um link do GitHub.
O VoxCPM2 é um modelo de Text-to-Speech open-source que acabou de cair no GitHub como uma bomba — e quando eu digo bomba, é porque ele supera a ElevenLabs em benchmarks de qualidade de clonagem de voz. Não é hype. São números reais, publicados, reproduzíveis.
E o melhor: é gratuito, roda local, e tem licença Apache 2.0 — ou seja, pode usar em produto comercial sem medo.
O que é o VoxCPM2
VoxCPM2 é um modelo de 2 bilhões de parâmetros criado pelo OpenBMB — o laboratório de IA da Universidade de Tsinghua (a “MIT da China”) em parceria com a ModelBest Inc., que tem funding da Huawei.
O repo tem ~9.800 stars no GitHub e está trending com +1.100 stars por dia. Não é mais um TTS qualquer.
O que faz:
- Gera voz em 30 idiomas (incluindo português) com qualidade de estúdio a 48kHz
- Clona qualquer voz a partir de um clipe curto de áudio
- Cria vozes do zero a partir de uma descrição em texto (“mulher jovem, tom caloroso, ritmo moderado”)
- Tudo isso rodando com apenas 8GB de VRAM
A equipe que fez isso é a mesma por trás do MiniCPM e do ChatDev — projetos sérios que já provaram que sabem entregar.
O problema que ele resolve (e que dói no bolso)
Voice AI virou necessidade. Chatbots, narração de onboarding, atendimento por IVR, vídeos de marketing, acessibilidade, e-learning — tudo precisa de voz.
Só que as opções até agora eram:
| Opção | Custo | Problema |
|---|---|---|
| ElevenLabs | $5 a $1.320/mês | Custo escala com uso |
| Ator de voz profissional | $250-$1.000+ por projeto | Não escala |
| TTS open-source (Bark, XTTS) | Grátis | Qualidade inferior, poucos idiomas |
O VoxCPM2 quebra essa equação: qualidade superior à ElevenLabs, custo zero, e Apache 2.0.
O diferencial técnico: tokenizer-free
Aqui é onde fica interessante pra quem é técnico.
A maioria dos modelos de TTS (incluindo VALL-E da Microsoft, Bark, e outros) funciona assim: converte a fala em tokens discretos (como se fosse “pixelando” o áudio) e depois reconstrói. Isso perde detalhes.
O VoxCPM2 fez diferente. Ele é tokenizer-free — opera diretamente no espaço contínuo de áudio usando uma arquitetura de difusão autorregressiva. Sem pixelar. Sem perder sutilezas.
O pipeline tem 4 estágios:
- LocEnc — Codifica o texto
- TSLM — Modela a relação texto-fala (backbone MiniCPM-4)
- RALM — Processa áudio de referência para clonagem
- LocDiT — Gera áudio contínuo no espaço latente do AudioVAE V2
Resultado: áudio em 48kHz (qualidade de estúdio) vs. 24kHz de muitos concorrentes open-source.
Os números que importam
Não é só teoria. Os benchmarks no Minimax-MLS comparando diretamente com a ElevenLabs são brutais:
| Idioma | VoxCPM2 | ElevenLabs | Vantagem |
|---|---|---|---|
| Inglês | 85.4% | 61.3% | +24.1pp |
| Chinês | 82.5% | 67.7% | +14.8pp |
| Árabe | 79.1% | 70.6% | +8.5pp |
No Seed-TTS-eval (benchmark padrão):
- English WER: 1.84% com similaridade de 75.3%
- Chinese CER: 0.97% com similaridade de 79.5%
E a velocidade? RTF de 0.13 no RTX 4090 com Nano-vLLM — ou seja, gera fala 8x mais rápido que tempo real.
3 modos de uso que mudam o jogo
1. Voice Design (criar voz do zero)
Você descreve em texto: “homem de 40 anos, voz grave, tom profissional, ritmo pausado”. O modelo gera essa voz. Sem áudio de referência. Nenhum outro TTS open-source faz isso.
Imagina: a sua software house define a “voz da marca” por texto e usa em todos os produtos.
2. Controllable Cloning (clonar + ajustar)
Você dá um clipe curto de áudio + instruções: “um pouco mais rápido, tom alegre”. Ele clona a voz e aplica os ajustes. Preserva o timbre original, muda a emoção.
Ideal pra atendimento ao cliente que precisa de tom diferente em contextos diferentes.
3. Ultimate Cloning (máxima fidelidade)
Áudio de referência + transcrição = clonagem que preserva até respirações e inflexões. É o modo mais preciso.
Fine-tuning? 5 a 10 minutos de áudio bastam. LoRA ou full SFT.
Como usar na sua software house
Instalação em 1 linha:
pip install voxcpm
Requisitos: Python ≥3.10, PyTorch ≥2.5.0, CUDA ≥12.0, ~8GB VRAM.
Cenários práticos:
- Chatbot com voz personalizada — Integre no backend do seu produto. Voz da marca consistente em todos os touchpoints.
- Narração automática de e-learning — Gere narração em português (e mais 29 idiomas) sem contratar locutor. Atualize conteúdo a qualquer momento.
- IVR/URA inteligente — Atendimento telefônico com voz natural. Clone a voz do CEO pra mensagem de boas-vindas se quiser.
- Acessibilidade — Leitura de tela com vozes naturais pra apps que precisam de compliance.
- Localização de produto — Mesmo app em 30 idiomas com voz consistente. Escala global sem custo adicional por idioma.
- Vídeos de marketing — Narração profissional automatizada. Teste A/B de vozes diferentes sem refilmar.
O que eu penso
Na minha experiência com 300+ software houses, voice AI ainda é subutilizado. A maioria dos CEOs nem considera porque “é caro” ou “é complicado”.
O VoxCPM2 muda esse cálculo. Com Apache 2.0, 8GB de VRAM, e pip install voxcpm, a barreira de entrada virou praticamente zero.
Mas preciso ser honesto sobre as limitações. Primeiro: o modelo é da Tsinghua/ModelBest com funding da Huawei. Se a sua software house tem restrições sobre proveniência de tecnologia chinesa, é um fator a considerar — mesmo sendo Apache 2.0. Segundo: os benchmarks são auto-reportados; validação independente completa ainda não existe. Terceiro: textos muito longos e expressões emocionais exageradas podem gerar resultados instáveis. E o voice design varia entre execuções — recomenda-se gerar 2-3 variações e escolher a melhor.
Dito isso: a ElevenLabs levantou $180M com valuation de $3B+ em 2025. O VoxCPM2 é a resposta open-source que o mercado estava esperando. O mercado de voice AI está projetado para $50 bilhões em 2027. Software houses que integrarem voice AI agora vão ter vantagem competitiva real.
Não é sobre “usar IA por usar”. É sobre entregar uma experiência que o cliente não consegue diferenciar de um humano — a custo zero.
Conclusão
O VoxCPM2 é um daqueles projetos que muda a categoria. Tokenizer-free, 30 idiomas, supera a ElevenLabs, Apache 2.0, roda em 8GB de VRAM. Se a sua software house tem qualquer produto que usa voz — ou que deveria usar — esse é o momento de testar.
O repo tá aqui: github.com/OpenBMB/VoxCPM. Demo live no HuggingFace. Paper no arXiv.
Se você quer implementar esse nível de IA na sua software house e não sabe por onde começar, me chama. É exatamente isso que faço com as 300+ SHs que mentoro.
Sou Thulio, mentoro 300+ SHs desde 2016.





