Um engenheiro do Google assinou o Surmado Code Review na semana passada. O produto roda em cima do Scout, nosso AI research analyst. Ele escreveu um arquivo STANDARDS.md para o projeto dele, abriu seu primeiro pull request e rodou o Scout nele.
O Scout sinalizou uma falha arquitetural crítica que teria quebrado a produção.
Ele não fez o merge. Mandou um email para a gente descrevendo o fluxo de trabalho dele:
“Pego o feedback do Surmado e colo no Gemini. O Gemini se autoflagela e me dá um novo prompt para usar com o Gemini Code Assist na minha IDE. O Code Assist faz as mudanças. Eu atualizo o branch e o Surmado revisa automaticamente a nova versão. E só quando esgoto esse loop é que marco meus colaboradores para revisar.”
Lê isso de novo. Tem um loop ali que vale a pena nomear.
O loop
- O Gemini Code Assist escreve o código na IDE dele.
- O Surmado revisa contra o
STANDARDS.mddele. - Ele cola a revisão do Surmado no chat do Gemini.
- O Gemini lê o veredito do Surmado e reescreve o prompt para si mesmo.
- O Code Assist regenera o código com o novo prompt.
- Ele faz push do novo branch. O Surmado revisa de novo automaticamente.
- Quando ele esgota o loop, marca os colaboradores humanos.
O último passo é o que sempre voltamos. O loop não está substituindo a revisão humana. Está fazendo a revisão humana entrar em ação só quando ela é realmente necessária. Na hora em que um humano olha para o PR, o que era óbvio já foi corrigido. As falhas de arquitetura, as violações de padrões, as coisas que um leitor atento pegaria numa terça à tarde cansado. Tudo resolvido. O revisor humano fica com as partes que de fato precisam de um humano: tradeoffs de design, intenção, julgamento.
Essa é a versão de IA no loop de desenvolvimento que realmente funciona. Não “IA substitui humanos”. A IA cuida da parte que converge. Os humanos cuidam da parte que decide.
O que o Gemini disse
O engenheiro colou a revisão do Surmado no Gemini duas vezes durante a sessão. Nas duas vezes, o Gemini concordou com o Surmado na hora.
A primeira resposta:
“O Surmado acabou de pegar uma falha arquitetural crítica que teria quebrado seu site em produção, e sinalizou citando diretamente o arquivo
STANDARDS.mdque escrevemos há 20 minutos. Você definitivamente não deve fazer merge desse PR ainda. Aqui está exatamente o que aconteceu e por que o Surmado está totalmente certo.”
A segunda:
“O Surmado pegou um furo na nossa execução, e francamente, eu pisei na bola no prompt que te dei para o Code Assist.”
Essa segunda citação é a que sempre voltamos. O Gemini não culpou o modelo. O Gemini culpou o prompt. As instruções que o Gemini deu para o Code Assist não incluíam as convenções do time, porque o Gemini não sabia quais eram as convenções do time.
O Surmado sabia, porque o engenheiro tinha escrito elas vinte minutos antes. O STANDARDS.md é a ponte entre o que o time valoriza e o que o modelo consegue colocar em prática.
Por que esse é o produto
A maioria das ferramentas de revisão de código com IA verifica boas práticas genéricas. Indenta seu código. Não faz shadow de variáveis. Evita números mágicos.
Isso é o básico. Todo linter faz. A razão pela qual times ainda fazem merge de código ruim é que os bugs que machucam a produção não são genéricos. São específicos de como o time constrói. São aquelas coisas no wiki, nos docs de design, as convenções que vivem na cabeça de três engenheiros sêniores.
O STANDARDS.md é onde você coloca isso. O Scout lê. Cada PR é revisado contra ele. Cada nova rodada lê o novo diff e a revisão anterior, então o Scout consegue dizer se os problemas anteriores foram corrigidos.
O loop do engenheiro funciona porque cada peça faz o que faz bem. O Gemini escreve código. O Surmado verifica contra as regras do time. O Gemini se autocorrige quando recebe feedback de fora. Os humanos revisam o que sobra. A integridade vem do loop, não de um único modelo.
Como isso realmente parece
Foi assim que ele descreveu suas tentativas anteriores em projetos web:
“Eu ficava empolgado com as linhas de código sendo geradas e depois esperava, animado, para ver minha criação ganhar vida, só para me decepcionar muito quando ela inevitavelmente quebrava.”
Quem já tentou vibe-codar um projeto de verdade conhece esse arco. A empolgação. A expectativa animada. A queda.
Depois isso:
“Mas hoje à noite não. Eu commitei PRs que fizeram exatamente o que eu me propus a fazer.”
Essa é a diferença. Não “IA escreveu código”. Não “IA revisou código”. Um loop que converge para um software que funciona, com um checkpoint humano no final quando precisa de um.
O enquadramento que gostamos
A maioria das ferramentas de IA se posiciona contra os humanos. “Mais rápido que um revisor humano.” “Pega coisas que humanos perdem.”
O Surmado se posiciona entre as IAs. Não mais rápido que o Gemini. Não mais inteligente que o Claude. O modelo que escreveu o código não sabe o que o time valoriza. O modelo que revisou sabe, porque alguém escreveu isso.
É assim que um produto de orquestração se parece. O LLM não é o produto. A forma como o LLM está conectado às regras reais do seu time é o produto.
O engenheiro resumiu na última mensagem dele: “Muito impressionado. E está tão perfeitamente integrado ao fluxo.”
É isso que estamos construindo.
Dois cliques. Depois simplesmente funciona. $15 por mês para 100 PRs. Nunca olhamos seu código. Os frontier labs que usamos também não.