Como um engenheiro do Google usa Surmado para manter o Gemini honesto

Um engenheiro do Google assinou o Surmado Code Review na semana passada. O produto roda em cima do Scout, nosso AI research analyst. Ele escreveu um arquivo STANDARDS.md para o projeto dele, abriu seu primeiro pull request e rodou o Scout nele.

O Scout sinalizou uma falha arquitetural crítica que teria quebrado a produção.

Ele não fez o merge. Mandou um email para a gente descrevendo o fluxo de trabalho dele:

“Pego o feedback do Surmado e colo no Gemini. O Gemini se autoflagela e me dá um novo prompt para usar com o Gemini Code Assist na minha IDE. O Code Assist faz as mudanças. Eu atualizo o branch e o Surmado revisa automaticamente a nova versão. E só quando esgoto esse loop é que marco meus colaboradores para revisar.”

Lê isso de novo. Tem um loop ali que vale a pena nomear.

O loop

O Gemini Code Assist escreve o código na IDE dele.
O Surmado revisa contra o STANDARDS.md dele.
Ele cola a revisão do Surmado no chat do Gemini.
O Gemini lê o veredito do Surmado e reescreve o prompt para si mesmo.
O Code Assist regenera o código com o novo prompt.
Ele faz push do novo branch. O Surmado revisa de novo automaticamente.
Quando ele esgota o loop, marca os colaboradores humanos.

O último passo é o que sempre voltamos. O loop não está substituindo a revisão humana. Está fazendo a revisão humana entrar em ação só quando ela é realmente necessária. Na hora em que um humano olha para o PR, o que era óbvio já foi corrigido. As falhas de arquitetura, as violações de padrões, as coisas que um leitor atento pegaria numa terça à tarde cansado. Tudo resolvido. O revisor humano fica com as partes que de fato precisam de um humano: tradeoffs de design, intenção, julgamento.

Essa é a versão de IA no loop de desenvolvimento que realmente funciona. Não “IA substitui humanos”. A IA cuida da parte que converge. Os humanos cuidam da parte que decide.

O que o Gemini disse

O engenheiro colou a revisão do Surmado no Gemini duas vezes durante a sessão. Nas duas vezes, o Gemini concordou com o Surmado na hora.

A primeira resposta:

“O Surmado acabou de pegar uma falha arquitetural crítica que teria quebrado seu site em produção, e sinalizou citando diretamente o arquivo STANDARDS.md que escrevemos há 20 minutos. Você definitivamente não deve fazer merge desse PR ainda. Aqui está exatamente o que aconteceu e por que o Surmado está totalmente certo.”

A segunda:

“O Surmado pegou um furo na nossa execução, e francamente, eu pisei na bola no prompt que te dei para o Code Assist.”

Essa segunda citação é a que sempre voltamos. O Gemini não culpou o modelo. O Gemini culpou o prompt. As instruções que o Gemini deu para o Code Assist não incluíam as convenções do time, porque o Gemini não sabia quais eram as convenções do time.

O Surmado sabia, porque o engenheiro tinha escrito elas vinte minutos antes. O STANDARDS.md é a ponte entre o que o time valoriza e o que o modelo consegue colocar em prática.

Por que esse é o produto

A maioria das ferramentas de revisão de código com IA verifica boas práticas genéricas. Indenta seu código. Não faz shadow de variáveis. Evita números mágicos.

Isso é o básico. Todo linter faz. A razão pela qual times ainda fazem merge de código ruim é que os bugs que machucam a produção não são genéricos. São específicos de como o time constrói. São aquelas coisas no wiki, nos docs de design, as convenções que vivem na cabeça de três engenheiros sêniores.

O STANDARDS.md é onde você coloca isso. O Scout lê. Cada PR é revisado contra ele. Cada nova rodada lê o novo diff e a revisão anterior, então o Scout consegue dizer se os problemas anteriores foram corrigidos.

O loop do engenheiro funciona porque cada peça faz o que faz bem. O Gemini escreve código. O Surmado verifica contra as regras do time. O Gemini se autocorrige quando recebe feedback de fora. Os humanos revisam o que sobra. A integridade vem do loop, não de um único modelo.

Como isso realmente parece

Foi assim que ele descreveu suas tentativas anteriores em projetos web:

“Eu ficava empolgado com as linhas de código sendo geradas e depois esperava, animado, para ver minha criação ganhar vida, só para me decepcionar muito quando ela inevitavelmente quebrava.”

Quem já tentou vibe-codar um projeto de verdade conhece esse arco. A empolgação. A expectativa animada. A queda.

Depois isso:

“Mas hoje à noite não. Eu commitei PRs que fizeram exatamente o que eu me propus a fazer.”

Essa é a diferença. Não “IA escreveu código”. Não “IA revisou código”. Um loop que converge para um software que funciona, com um checkpoint humano no final quando precisa de um.

O enquadramento que gostamos

A maioria das ferramentas de IA se posiciona contra os humanos. “Mais rápido que um revisor humano.” “Pega coisas que humanos perdem.”

O Surmado se posiciona entre as IAs. Não mais rápido que o Gemini. Não mais inteligente que o Claude. O modelo que escreveu o código não sabe o que o time valoriza. O modelo que revisou sabe, porque alguém escreveu isso.

É assim que um produto de orquestração se parece. O LLM não é o produto. A forma como o LLM está conectado às regras reais do seu time é o produto.

O engenheiro resumiu na última mensagem dele: “Muito impressionado. E está tão perfeitamente integrado ao fluxo.”

É isso que estamos construindo.

Dois cliques. Depois simplesmente funciona. $15 por mês para 100 PRs. Nunca olhamos seu código. Os frontier labs que usamos também não.

Experimente o Surmado Code Review →

O loop

O que o Gemini disse

Por que esse é o produto

Como isso realmente parece

O enquadramento que gostamos

Pronto para agir?

Continue lendo

Como fizemos um bot de revisão de código com vibe coding (e onde paramos)

Cinco Claudes, cinco implementações. Qual é a sua?

O que é Generative Engine Optimization (GEO)? Guia completo