Home / Engenharia de Software / Chandra OCR 2: O Modelo Open-Source que Lê Até Letra de Médico

Chandra OCR 2: O Modelo Open-Source que Lê Até Letra de Médico

Seus clientes enviam nota fiscal como foto do WhatsApp. O atestado médico chega como PDF escaneado torto. O contrato tem tabelas com células mescladas que nenhum OCR consegue ler direito.

Se você tem uma software house, já ouviu alguma variação dessa dor pelo menos umas 50 vezes.

Eu mentoro mais de 300 software houses desde 2016, e posso dizer: processamento de documentos é uma das funcionalidades mais pedidas — e mais mal feitas — nos sistemas que a gente constrói. A maioria das SHs resolve isso com Tesseract (que falha com qualquer tabela complexa), APIs pagas do Google/AWS (que pesam no bolso em escala), ou — o pior de todos — digitação manual.

Pois bem. Achei um projeto open-source que muda esse jogo de vez.

O que é o Chandra OCR 2

Chandra OCR 2 é um modelo de inteligência artificial com 4 bilhões de parâmetros, treinado especificamente para ler documentos. Não é um LLM genérico fazendo OCR por cima — é um modelo especialista que entende layout, tabelas, escrita à mão, equações matemáticas, checkboxes e formulários.

O resultado? 85.9% no benchmark olmOCR — o melhor do mundo entre modelos open-source. Para colocar em perspectiva: GPT-4o faz 69.9% e Gemini Flash 2 faz 63.8% no mesmo benchmark. Chandra é 16 pontos melhor que GPT-4o em ler documentos.

E ele faz isso com 4 bilhões de parâmetros — menos da metade do Chandra 1 (que tinha 9 bilhões). Menor, mais rápido e mais preciso. Raro isso acontecer.

8.243 stars no GitHub e crescendo mais de 1.400 por semana.

O problema real: documentos do mundo real são uma bagunça

Vou ser direto. A maioria dos OCRs funciona bem com texto limpo, bem formatado, em inglês. Mas os documentos que chegam nos sistemas que a gente constrói são:

  • Notas fiscais escaneadas — tortas, com carimbo por cima, manchadas
  • Receitas médicas — a famigerada letra de médico, em cursiva, com abreviações
  • Contratos — tabelas com células mescladas, colunas irregulares, assinaturas
  • Formulários preenchidos à mão — checkboxes, campos misturando impresso e manuscrito
  • Documentos em português — que muitos OCRs tratam como segunda categoria

Chandra 2 foi construído para exatamente isso. E aqui está o número que mais me impressionou: 95.2% de acurácia em português. Quase perfeito.

Como funciona na prática

Instalar é uma linha:

pip install chandra-ocr

Usar é outra:

chandra nota-fiscal.pdf ./resultado --output_format markdown

O que sai do outro lado é um Markdown (ou HTML, ou JSON) estruturado, com tabelas preservadas, campos identificados, layout intacto. Não é texto corrido — é dado estruturável.

Para produção, você sobe um servidor vLLM via Docker que processa 1.44 páginas por segundo numa GPU H100. Em uso real do dia a dia, chega a 2 páginas por segundo. Quer testar sem instalar nada? Tem um playground gratuito no site deles.

Os números que sua SH precisa ver

Vou comparar com o que você provavelmente usa hoje:

Chandra 2 Google Vision AWS Textract GPT-4o
Acurácia (olmOCR) 85.9% ~75% ~78% 69.9%
Custo por página ~R$0,002 R$0,05-0,50 R$0,05-0,50 R$0,15+
Roda local Sim Não Não Não
Tabelas complexas 89.9% Limitado Bom 65%
Escrita à mão Excelente Bom Bom Mediano
Português 95.2% ~85% ~85% ~80%

Fazendo a conta: se a SH do seu cliente processa 10.000 páginas por mês no Google Vision, ele gasta entre R$500 e R$5.000/mês. Com Chandra rodando numa GPU cloud (~R$15/hora), o mesmo volume custa menos de R$50/mês.

É 10x a 100x mais barato. Rodando na infra da SH. Sem mandar dados pra fora.

Quem criou isso

O Chandra é da Datalab, uma startup de Manhattan fundada em 2024 por Vik Paruchuri — o mesmo cara que criou o Marker (conversor PDF → Markdown que muita gente já usa) e o Surya (motor de OCR com suporte a 90+ idiomas).

A Datalab levantou $3.5 milhões em seed da Pebblebed — fundo fundado por membros originais da OpenAI e FAIR. São 7 pessoas. Já têm receita de 7 dígitos em ARR. Clientes incluem labs de IA tier 1.

A filosofia do Vik é clara: modelos pequenos e especializados superam LLMs genéricos em tarefas específicas. Chandra prova isso — com 4B parâmetros, bate GPT-4o (que tem centenas de bilhões) em OCR.

Como usar na sua software house

Aqui é onde fica prático. Seis formas de monetizar Chandra na sua SH:

1. Feature de importação inteligente no ERP
Seu cliente fotografa a nota fiscal, o sistema lê automaticamente e preenche os campos. Não é mais “future feature” — funciona hoje.

2. Automação de contabilidade
Processamento em lote de recibos, DARFs, comprovantes. Seu sistema contábil pode ingerir centenas de documentos por hora sem intervenção humana.

3. Digitalização de prontuários e receitas
Para SHs que atendem clínicas e hospitais. Ler escrita à mão de médicos é um superpoder — Chandra faz isso.

4. Gestão documental com busca semântica
Converter documentos históricos em texto indexável. Contratos de 2005 escaneados como imagem viram texto pesquisável.

5. OCR-as-a-Service
Oferecer processamento de documentos como serviço para os clientes da sua SH. Custo de R$0,002/página, cobra R$0,10 — margem de 50x.

6. Integração com agentes de IA
Chandra extrai os dados, um agente de IA (GPT, Claude, Gemini) interpreta e toma decisões. O combo é poderoso.

O que eu penso

Na minha experiência com 300+ software houses, OCR é daqueles problemas que todo mundo tem, ninguém resolve bem, e todo mundo aceita como “é assim mesmo.”

Não deveria ser assim.

Chandra 2 não é perfeito — 85.9% significa que em ~14% das páginas vai ter algum erro. Para documentos críticos, revisão humana ainda é necessária. A licença do modelo também tem uma pegadinha: é grátis para startups com menos de $2M em receita/funding, mas se você é uma SH maior, vai precisar de licença comercial.

Mas sabe o que é mais relevante? Pela primeira vez, um modelo open-source de OCR supera as APIs pagas em qualidade. Isso muda a dinâmica inteira. Você pode rodar na sua infra, manter os dados do cliente na sua nuvem, e ter resultado melhor do que mandando tudo pro Google.

Se sua SH desenvolve qualquer sistema que toca em documentos do mundo real — e sejamos honestos, quase todas tocam — você precisa experimentar o Chandra. Abre o playground gratuito, joga uma nota fiscal torta lá e vê o que acontece. Depois me conta.

Sou Thulio, mentoro 300+ SHs desde 2016.

Marcado:

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *