Home / Inteligência Artificial / VoxCPM2: O Modelo Open-Source Que Clona Vozes Melhor Que a ElevenLabs

VoxCPM2: O Modelo Open-Source Que Clona Vozes Melhor Que a ElevenLabs

A voz da sua software house ainda depende de serviço pago?

Semana passada um CEO de software house me mandou uma mensagem: “Thulio, tô pagando $300/mês pra ElevenLabs pra narrar onboarding de 3 produtos. Tem como baratear isso?”

Eu respondi com um link do GitHub.

O VoxCPM2 é um modelo de Text-to-Speech open-source que acabou de cair no GitHub como uma bomba — e quando eu digo bomba, é porque ele supera a ElevenLabs em benchmarks de qualidade de clonagem de voz. Não é hype. São números reais, publicados, reproduzíveis.

E o melhor: é gratuito, roda local, e tem licença Apache 2.0 — ou seja, pode usar em produto comercial sem medo.

O que é o VoxCPM2

VoxCPM2 é um modelo de 2 bilhões de parâmetros criado pelo OpenBMB — o laboratório de IA da Universidade de Tsinghua (a “MIT da China”) em parceria com a ModelBest Inc., que tem funding da Huawei.

O repo tem ~9.800 stars no GitHub e está trending com +1.100 stars por dia. Não é mais um TTS qualquer.

O que faz:

  • Gera voz em 30 idiomas (incluindo português) com qualidade de estúdio a 48kHz
  • Clona qualquer voz a partir de um clipe curto de áudio
  • Cria vozes do zero a partir de uma descrição em texto (“mulher jovem, tom caloroso, ritmo moderado”)
  • Tudo isso rodando com apenas 8GB de VRAM

A equipe que fez isso é a mesma por trás do MiniCPM e do ChatDev — projetos sérios que já provaram que sabem entregar.

O problema que ele resolve (e que dói no bolso)

Voice AI virou necessidade. Chatbots, narração de onboarding, atendimento por IVR, vídeos de marketing, acessibilidade, e-learning — tudo precisa de voz.

Só que as opções até agora eram:

Opção Custo Problema
ElevenLabs $5 a $1.320/mês Custo escala com uso
Ator de voz profissional $250-$1.000+ por projeto Não escala
TTS open-source (Bark, XTTS) Grátis Qualidade inferior, poucos idiomas

O VoxCPM2 quebra essa equação: qualidade superior à ElevenLabs, custo zero, e Apache 2.0.

O diferencial técnico: tokenizer-free

Aqui é onde fica interessante pra quem é técnico.

A maioria dos modelos de TTS (incluindo VALL-E da Microsoft, Bark, e outros) funciona assim: converte a fala em tokens discretos (como se fosse “pixelando” o áudio) e depois reconstrói. Isso perde detalhes.

O VoxCPM2 fez diferente. Ele é tokenizer-free — opera diretamente no espaço contínuo de áudio usando uma arquitetura de difusão autorregressiva. Sem pixelar. Sem perder sutilezas.

O pipeline tem 4 estágios:

  1. LocEnc — Codifica o texto
  2. TSLM — Modela a relação texto-fala (backbone MiniCPM-4)
  3. RALM — Processa áudio de referência para clonagem
  4. LocDiT — Gera áudio contínuo no espaço latente do AudioVAE V2

Resultado: áudio em 48kHz (qualidade de estúdio) vs. 24kHz de muitos concorrentes open-source.

Os números que importam

Não é só teoria. Os benchmarks no Minimax-MLS comparando diretamente com a ElevenLabs são brutais:

Idioma VoxCPM2 ElevenLabs Vantagem
Inglês 85.4% 61.3% +24.1pp
Chinês 82.5% 67.7% +14.8pp
Árabe 79.1% 70.6% +8.5pp

No Seed-TTS-eval (benchmark padrão):

  • English WER: 1.84% com similaridade de 75.3%
  • Chinese CER: 0.97% com similaridade de 79.5%

E a velocidade? RTF de 0.13 no RTX 4090 com Nano-vLLM — ou seja, gera fala 8x mais rápido que tempo real.

3 modos de uso que mudam o jogo

1. Voice Design (criar voz do zero)

Você descreve em texto: “homem de 40 anos, voz grave, tom profissional, ritmo pausado”. O modelo gera essa voz. Sem áudio de referência. Nenhum outro TTS open-source faz isso.

Imagina: a sua software house define a “voz da marca” por texto e usa em todos os produtos.

2. Controllable Cloning (clonar + ajustar)

Você dá um clipe curto de áudio + instruções: “um pouco mais rápido, tom alegre”. Ele clona a voz e aplica os ajustes. Preserva o timbre original, muda a emoção.

Ideal pra atendimento ao cliente que precisa de tom diferente em contextos diferentes.

3. Ultimate Cloning (máxima fidelidade)

Áudio de referência + transcrição = clonagem que preserva até respirações e inflexões. É o modo mais preciso.

Fine-tuning? 5 a 10 minutos de áudio bastam. LoRA ou full SFT.

Como usar na sua software house

Instalação em 1 linha:


pip install voxcpm

Requisitos: Python ≥3.10, PyTorch ≥2.5.0, CUDA ≥12.0, ~8GB VRAM.

Cenários práticos:

  1. Chatbot com voz personalizada — Integre no backend do seu produto. Voz da marca consistente em todos os touchpoints.
  1. Narração automática de e-learning — Gere narração em português (e mais 29 idiomas) sem contratar locutor. Atualize conteúdo a qualquer momento.
    1. IVR/URA inteligente — Atendimento telefônico com voz natural. Clone a voz do CEO pra mensagem de boas-vindas se quiser.
    1. Acessibilidade — Leitura de tela com vozes naturais pra apps que precisam de compliance.
      1. Localização de produto — Mesmo app em 30 idiomas com voz consistente. Escala global sem custo adicional por idioma.
      1. Vídeos de marketing — Narração profissional automatizada. Teste A/B de vozes diferentes sem refilmar.
      2. O que eu penso

        Na minha experiência com 300+ software houses, voice AI ainda é subutilizado. A maioria dos CEOs nem considera porque “é caro” ou “é complicado”.

        O VoxCPM2 muda esse cálculo. Com Apache 2.0, 8GB de VRAM, e pip install voxcpm, a barreira de entrada virou praticamente zero.

        Mas preciso ser honesto sobre as limitações. Primeiro: o modelo é da Tsinghua/ModelBest com funding da Huawei. Se a sua software house tem restrições sobre proveniência de tecnologia chinesa, é um fator a considerar — mesmo sendo Apache 2.0. Segundo: os benchmarks são auto-reportados; validação independente completa ainda não existe. Terceiro: textos muito longos e expressões emocionais exageradas podem gerar resultados instáveis. E o voice design varia entre execuções — recomenda-se gerar 2-3 variações e escolher a melhor.

        Dito isso: a ElevenLabs levantou $180M com valuation de $3B+ em 2025. O VoxCPM2 é a resposta open-source que o mercado estava esperando. O mercado de voice AI está projetado para $50 bilhões em 2027. Software houses que integrarem voice AI agora vão ter vantagem competitiva real.

        Não é sobre “usar IA por usar”. É sobre entregar uma experiência que o cliente não consegue diferenciar de um humano — a custo zero.

        Conclusão

        O VoxCPM2 é um daqueles projetos que muda a categoria. Tokenizer-free, 30 idiomas, supera a ElevenLabs, Apache 2.0, roda em 8GB de VRAM. Se a sua software house tem qualquer produto que usa voz — ou que deveria usar — esse é o momento de testar.

        O repo tá aqui: github.com/OpenBMB/VoxCPM. Demo live no HuggingFace. Paper no arXiv.

        Se você quer implementar esse nível de IA na sua software house e não sabe por onde começar, me chama. É exatamente isso que faço com as 300+ SHs que mentoro.

        Sou Thulio, mentoro 300+ SHs desde 2016.

Marcado:

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *