Home / Engenharia de Software / AI-Scientist-v2: A IA que Escreve Papers Científicos Sozinha (e Já Passou no Peer Review)

AI-Scientist-v2: A IA que Escreve Papers Científicos Sozinha (e Já Passou no Peer Review)

Uma IA acabou de fazer o que muitos pesquisadores levam meses e ela gastou $20.

Deixa eu te contar uma coisa que me tirou o sono essa semana. Eu estava olhando o GitHub Trending e encontrei um projeto que, de cara, parece coisa de ficção científica: o AI-Scientist-v2, da SakanaAI. É um sistema que pega uma ideia de pesquisa, cria hipóteses, escreve código, roda experimentos, analisa resultados e produz um paper científico completo, tudo sozinho, sem nenhum humano tocando no processo.

“Mas Thulio, paper de IA é normal, todo mundo está fazendo.” Verdade. Mas esse aqui foi aceito via peer review. Reviewers humanos avaliaram o paper, deram nota 6, 7 e 6, e aprovaram. É o primeiro paper 100% gerado por IA a passar por esse crivo na história. E a versão anterior desse sistema? Foi publicada na Nature, a revista científica mais prestigiada do planeta.

Se você é CEO de uma software house e acha que isso é só papo de academia, continua lendo. Porque o paradigma por trás disso vai mudar a forma como a gente desenvolve software.

O que é o AI-Scientist-v2

É um sistema open-source criado pela SakanaAI, startup de Tóquio avaliada em $2,6 bilhões, com $379 milhões captados de investidores como NVIDIA, Khosla Ventures e os maiores bancos do Japão. O co-fundador, Llion Jones, é um dos autores do paper “Attention Is All You Need”, aquele de 2017 que criou a arquitetura Transformer e tornou possível tudo que existe hoje de LLM.

O repositório tem 4.700+ stars no GitHub, 658 forks, e está trending no Python esta semana. É escrito em Python (70%) e LaTeX (18%), e suporta múltiplos LLMs: OpenAI, Claude (via Bedrock) e Gemini.

O problema que ele resolve

Pesquisa científica é cara, lenta e totalmente dependente de humanos. Um paper típico leva meses de trabalho. Envolve revisar dezenas de artigos, formular hipóteses, escrever código para experimentos, rodar os experimentos, analisar os dados, produzir gráficos, escrever o manuscrito e passar pelo doloroso processo de peer review.

O AI-Scientist-v2 faz tudo isso em algumas horas por cerca de $20-25 usando Claude 3.5 Sonnet. Sim, vinte dólares. O preço de dois cafés especiais.

Como funciona: o “Agentic Tree Search”

Aqui é onde fica interessante para quem constrói software.

O sistema funciona em 3 estágios:

Estágio 1: Ideation

Você dá uma descrição do tópico em Markdown. A IA gera hipóteses de pesquisa e verifica a novidade de cada uma consultando o Semantic Scholar (maior banco de papers científicos do mundo). Só avança com ideias genuinamente novas.

Estágio 2: Experimentation (a inovação principal)

Aqui entra o que eles chamam de “progressive agentic tree search”. Em vez de seguir um pipeline linear (como a maioria das ferramentas faz), o AI-Scientist-v2 cria uma árvore de experimentos:

  • Múltiplos workers exploram caminhos diferentes em paralelo
  • Um “experiment manager” agent decide quais branches têm potencial e quais devem ser podados
  • Debug automático quando um experimento falha
  • Visualização interativa da árvore inteira em HTML

Isso é fundamentalmente diferente de qualquer outra ferramenta de pesquisa automatizada. O AutoResearchClaw que cobrimos aqui no blog usa 23 estágios lineares. O AI-Scientist-v2 explora o espaço de possibilidades como uma árvore, podando os caminhos ruins e aprofundando os promissores. É Monte Carlo Tree Search aplicado à ciência.

Estágio 3: Paper Generation

Depois dos experimentos, o sistema escreve o paper completo com citações reais, gráficos e formatação LaTeX. Uma VLM (Vision-Language Model) revisa as figuras iterativamente, olha o gráfico, sugere melhorias, regenera. No final, um reviewer de IA simula o peer review antes da submissão.

Os números que importam

Métrica Valor
Custo por paper completo ~$20-25
Tempo de execução Algumas horas
Peer review scores 6, 7 e 6 (aprovado no ICLR Workshop)
V1 do sistema Publicado na Nature
Stars no GitHub 4.700+
Valuation da SakanaAI $2,6 bilhões
Funding total $379 milhões
Co-fundador Llion Jones (co-autor de “Attention Is All You Need”)

O que isso significa para sua software house

“Tá, Thulio, mas eu não faço pesquisa acadêmica. O que isso tem a ver comigo?”

Tudo. O paradigma do AI-Scientist-v2, tree search + experiment manager + execução paralela + poda inteligente, é aplicável a problemas que toda software house enfrenta:

1. Testing automatizado inteligente
Imagine um sistema que não roda os mesmos testes toda vez, mas explora árvores de cenários de teste, encontrando edge cases que nenhum humano pensaria. O experiment manager poda os caminhos irrelevantes e aprofunda os perigosos.

2. A/B testing de features em escala
Em vez de testar A vs B, teste A, B, C, D, E… em paralelo, com um agente decidindo em tempo real quais variações merecem mais tráfego.

3. Code review agentic
Um “review manager” que avalia múltiplas abordagens de implementação em paralelo antes de escolher a melhor. Não é diff review, é exploração de alternativas.

4. Experimentação rápida de ML
Se sua SH está começando a incorporar IA nos produtos (e deveria estar), o AI-Scientist-v2 literalmente automatiza a parte mais dolorosa: experimentar diferentes abordagens e descobrir o que funciona.

Na minha experiência com 300+ SHs, o gargalo nunca é ter ideias. É validar as ideias rápido o suficiente. O paradigma de tree search resolve isso de um jeito que pipeline linear jamais vai resolver.

As críticas (porque eu não sou de esconder)

Preciso ser honesto: o AI-Scientist-v2 não é perfeito.

42% dos experimentos falham por erros de código. Sim, quase metade. E as citações às vezes têm erros. O TechCrunch publicou uma análise questionando se ser aceito em um workshop equivale a um breakthrough de verdade. Um paper independente avaliou o sistema e concluiu: “Bold Claims, Mixed Results, and a Promising Future?”.

Mas é exatamente isso que torna esse projeto interessante: ele mostra onde a IA já chegou e onde ainda precisa melhorar. A taxa de falha de 42% hoje vai ser 20% amanhã e 5% no ano que vem. É inevitável.

Também exige cuidado: o sistema executa código gerado por LLM, então precisa rodar em sandbox. A própria SakanaAI recomenda Docker. E a licença exige que qualquer paper gerado declare que foi feito por IA.

O que eu penso

Eu olho para o AI-Scientist-v2 e vejo o mesmo padrão que vi quando apareceu o GitHub Copilot em 2021. Na época, muita gente disse “isso nunca vai substituir programador”. Hoje, coding agents estão escrevendo a maioria do código novo em muitas empresas.

A pesquisa científica vai pelo mesmo caminho. Não porque a IA vai substituir cientistas, mas porque vai multiplicar a capacidade de experimentação de quem souber usar. Um pesquisador com AI-Scientist-v2 faz em uma semana o que um lab inteiro faz em um trimestre.

Para CEOs de software houses, a lição é: o paradigma de tree search com experiment manager é poderoso demais para ficar só na academia. Quem adaptar isso para testing, code review e feature experimentation primeiro vai ter uma vantagem gigante.

Sou Thulio, mentoro 300+ SHs desde 2016.

Marcado:

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *