Home / Inteligência Artificial / VoxCPM2: O Modelo Open-Source Que Clona Vozes Melhor Que a ElevenLabs

Inteligência Artificial

VoxCPM2: O Modelo Open-Source Que Clona Vozes Melhor Que a ElevenLabs

11/04/2026

A voz da sua software house ainda depende de serviço pago?

Semana passada um CEO de software house me mandou uma mensagem: “Thulio, tô pagando $300/mês pra ElevenLabs pra narrar onboarding de 3 produtos. Tem como baratear isso?”

Eu respondi com um link do GitHub.

O VoxCPM2 é um modelo de Text-to-Speech open-source que acabou de cair no GitHub como uma bomba — e quando eu digo bomba, é porque ele supera a ElevenLabs em benchmarks de qualidade de clonagem de voz. Não é hype. São números reais, publicados, reproduzíveis.

E o melhor: é gratuito, roda local, e tem licença Apache 2.0 — ou seja, pode usar em produto comercial sem medo.

O que é o VoxCPM2

VoxCPM2 é um modelo de 2 bilhões de parâmetros criado pelo OpenBMB — o laboratório de IA da Universidade de Tsinghua (a “MIT da China”) em parceria com a ModelBest Inc., que tem funding da Huawei.

O repo tem ~9.800 stars no GitHub e está trending com +1.100 stars por dia. Não é mais um TTS qualquer.

O que faz:

Gera voz em 30 idiomas (incluindo português) com qualidade de estúdio a 48kHz
Clona qualquer voz a partir de um clipe curto de áudio
Cria vozes do zero a partir de uma descrição em texto (“mulher jovem, tom caloroso, ritmo moderado”)
Tudo isso rodando com apenas 8GB de VRAM

A equipe que fez isso é a mesma por trás do MiniCPM e do ChatDev — projetos sérios que já provaram que sabem entregar.

O problema que ele resolve (e que dói no bolso)

Voice AI virou necessidade. Chatbots, narração de onboarding, atendimento por IVR, vídeos de marketing, acessibilidade, e-learning — tudo precisa de voz.

Só que as opções até agora eram:

Opção	Custo	Problema
ElevenLabs	$5 a $1.320/mês	Custo escala com uso
Ator de voz profissional	$250-$1.000+ por projeto	Não escala
TTS open-source (Bark, XTTS)	Grátis	Qualidade inferior, poucos idiomas

O VoxCPM2 quebra essa equação: qualidade superior à ElevenLabs, custo zero, e Apache 2.0.

O diferencial técnico: tokenizer-free

Aqui é onde fica interessante pra quem é técnico.

A maioria dos modelos de TTS (incluindo VALL-E da Microsoft, Bark, e outros) funciona assim: converte a fala em tokens discretos (como se fosse “pixelando” o áudio) e depois reconstrói. Isso perde detalhes.

O VoxCPM2 fez diferente. Ele é tokenizer-free — opera diretamente no espaço contínuo de áudio usando uma arquitetura de difusão autorregressiva. Sem pixelar. Sem perder sutilezas.

O pipeline tem 4 estágios:

LocEnc — Codifica o texto
TSLM — Modela a relação texto-fala (backbone MiniCPM-4)
RALM — Processa áudio de referência para clonagem
LocDiT — Gera áudio contínuo no espaço latente do AudioVAE V2

Resultado: áudio em 48kHz (qualidade de estúdio) vs. 24kHz de muitos concorrentes open-source.

Os números que importam

Não é só teoria. Os benchmarks no Minimax-MLS comparando diretamente com a ElevenLabs são brutais:

Idioma	VoxCPM2	ElevenLabs	Vantagem
Inglês	85.4%	61.3%	+24.1pp
Chinês	82.5%	67.7%	+14.8pp
Árabe	79.1%	70.6%	+8.5pp

No Seed-TTS-eval (benchmark padrão):

English WER: 1.84% com similaridade de 75.3%
Chinese CER: 0.97% com similaridade de 79.5%

E a velocidade? RTF de 0.13 no RTX 4090 com Nano-vLLM — ou seja, gera fala 8x mais rápido que tempo real.

3 modos de uso que mudam o jogo

1. Voice Design (criar voz do zero)

Você descreve em texto: “homem de 40 anos, voz grave, tom profissional, ritmo pausado”. O modelo gera essa voz. Sem áudio de referência. Nenhum outro TTS open-source faz isso.

Imagina: a sua software house define a “voz da marca” por texto e usa em todos os produtos.

2. Controllable Cloning (clonar + ajustar)

Você dá um clipe curto de áudio + instruções: “um pouco mais rápido, tom alegre”. Ele clona a voz e aplica os ajustes. Preserva o timbre original, muda a emoção.

Ideal pra atendimento ao cliente que precisa de tom diferente em contextos diferentes.

3. Ultimate Cloning (máxima fidelidade)

Áudio de referência + transcrição = clonagem que preserva até respirações e inflexões. É o modo mais preciso.

Fine-tuning? 5 a 10 minutos de áudio bastam. LoRA ou full SFT.

Como usar na sua software house

Instalação em 1 linha:


pip install voxcpm

Requisitos: Python ≥3.10, PyTorch ≥2.5.0, CUDA ≥12.0, ~8GB VRAM.

Cenários práticos:

Chatbot com voz personalizada — Integre no backend do seu produto. Voz da marca consistente em todos os touchpoints.

Narração automática de e-learning — Gere narração em português (e mais 29 idiomas) sem contratar locutor. Atualize conteúdo a qualquer momento.

IVR/URA inteligente — Atendimento telefônico com voz natural. Clone a voz do CEO pra mensagem de boas-vindas se quiser.

Acessibilidade — Leitura de tela com vozes naturais pra apps que precisam de compliance.

Localização de produto — Mesmo app em 30 idiomas com voz consistente. Escala global sem custo adicional por idioma.

Vídeos de marketing — Narração profissional automatizada. Teste A/B de vozes diferentes sem refilmar.

O que eu penso

Na minha experiência com 300+ software houses, voice AI ainda é subutilizado. A maioria dos CEOs nem considera porque “é caro” ou “é complicado”.

O VoxCPM2 muda esse cálculo. Com Apache 2.0, 8GB de VRAM, e pip install voxcpm, a barreira de entrada virou praticamente zero.

Mas preciso ser honesto sobre as limitações. Primeiro: o modelo é da Tsinghua/ModelBest com funding da Huawei. Se a sua software house tem restrições sobre proveniência de tecnologia chinesa, é um fator a considerar — mesmo sendo Apache 2.0. Segundo: os benchmarks são auto-reportados; validação independente completa ainda não existe. Terceiro: textos muito longos e expressões emocionais exageradas podem gerar resultados instáveis. E o voice design varia entre execuções — recomenda-se gerar 2-3 variações e escolher a melhor.

Dito isso: a ElevenLabs levantou $180M com valuation de $3B+ em 2025. O VoxCPM2 é a resposta open-source que o mercado estava esperando. O mercado de voice AI está projetado para $50 bilhões em 2027. Software houses que integrarem voice AI agora vão ter vantagem competitiva real.

Não é sobre “usar IA por usar”. É sobre entregar uma experiência que o cliente não consegue diferenciar de um humano — a custo zero.

Conclusão

O VoxCPM2 é um daqueles projetos que muda a categoria. Tokenizer-free, 30 idiomas, supera a ElevenLabs, Apache 2.0, roda em 8GB de VRAM. Se a sua software house tem qualquer produto que usa voz — ou que deveria usar — esse é o momento de testar.

O repo tá aqui: github.com/OpenBMB/VoxCPM. Demo live no HuggingFace. Paper no arXiv.

Se você quer implementar esse nível de IA na sua software house e não sabe por onde começar, me chama. É exatamente isso que faço com as 300+ SHs que mentoro.

Sou Thulio, mentoro 300+ SHs desde 2016.

Marcado:Apache 2.0 clonagem de voz ElevenLabs IA open-source OpenBMB software house text-to-speech TTS Voice AI VoxCPM2

Thulio Bittencourt

VoxCPM2: O Modelo Open-Source Que Clona Vozes Melhor Que a ElevenLabs

A voz da sua software house ainda depende de serviço pago?

O que é o VoxCPM2

O problema que ele resolve (e que dói no bolso)

O diferencial técnico: tokenizer-free

Os números que importam

3 modos de uso que mudam o jogo

1. Voice Design (criar voz do zero)

2. Controllable Cloning (clonar + ajustar)

3. Ultimate Cloning (máxima fidelidade)

Como usar na sua software house

O que eu penso

Conclusão

Seu Dev Roda Claude Code no Projeto do Cliente e Corrompe o Workspace Perforce? Uma Variável Resolve

Google AI Edge Gallery: IA Agentic no Celular, Sem Internet e de Graça

Deixe um Comentário Cancelar resposta

VoxCPM2: O Modelo Open-Source Que Clona Vozes Melhor Que a ElevenLabs

A voz da sua software house ainda depende de serviço pago?

O que é o VoxCPM2

O problema que ele resolve (e que dói no bolso)

O diferencial técnico: tokenizer-free

Os números que importam

3 modos de uso que mudam o jogo

1. Voice Design (criar voz do zero)

2. Controllable Cloning (clonar + ajustar)

3. Ultimate Cloning (máxima fidelidade)

Como usar na sua software house

O que eu penso

Conclusão

Seu Dev Roda Claude Code no Projeto do Cliente e Corrompe o Workspace Perforce? Uma Variável Resolve

Google AI Edge Gallery: IA Agentic no Celular, Sem Internet e de Graça

Related Posts

Google AI Edge Gallery: IA Agentic no Celular, Sem Internet e de ...

Scientific Agent Skills: 134 Superpoderes Científicos Para Seus A ...

Scientific Agent Skills: 134 Superpoderes Científicos Para Seus A ...

Deixe um Comentário Cancelar resposta