Quando o peer review acontece antes do paper

Há duas semanas eu vinha com a vontade de começar um projeto de pesquisa com machine learning. A ideia me perseguia, mas não saía da cabeça: por onde começar a desenhar?

Com uma boa sessão de brainstorming, surgiu: quatro papers sobre doença respiratória aguda pediátrica no HRT, com etiologia viral sistemática e modelos preditivos de gravidade. Cinco horas depois, tinha 15 commits num repositório privado, ~2.000 linhas de protocolo, quatro projetos de pesquisa completos com revisão metodológica externa absorvida. Não foi mágica. Foi um workflow específico que vale destrinchar.

O brainstorming que faz uma pergunta de cada vez

Comecei chamando uma instância do Claude Code que mantenho rodando num servidor remoto, com uma skill estruturada de brainstorming. A primeira coisa que me surpreendeu foi a disciplina: ele recusou propor soluções enquanto eu não respondesse perguntas estruturadoras.

Pergunta 1: que tipo de problema clínico me atrai — diagnóstico, prognóstico, descritivo? Pergunta 2: que tipo de dado consigo coletar com menor atrito na enfermaria? Pergunta 3: qual é a ambição realista do projeto e em que prazo?

Cada resposta minha refinava o espaço de possibilidades. Quando finalmente propôs três opções, elas estavam ancoradas no que eu podia e queria fazer — não no que ele poderia gerar. Eu tinha proposto um projeto de ultrassonografia em neonatologia algumas semanas antes; o gargalo de mobilizar colegas tinha me travado e perguntou se eu queria algo "sob meu controle". Pivotei para pneumonia adquirida na comunidade como projeto principal. A parte mais útil daquela sessão foi exatamente isso: a recusa em pular etapas.

A pesquisa de literatura que se verifica

Quando comecei a especificar a metodologia, cometemos o erro previsível: assumir que conhecíamos os comparadores. Inicialmente iríamos citar o RISC, o PIDS/IDSA, o PEWS. Um outro agente, adversarial, cruzou cada referência no PubMed antes de incluir, descobriu que o critério PIDS/IDSA "nunca foi formalmente desenvolvido nem validado em pediatria" (Dean & Florin, 2018), e ajustou o desenho para refletir essa lacuna. Cada referência da revisão de literatura virou um link com DOI, verificável em segundos.

Esse é um detalhe pequeno mas crítico. Posts viralizam sobre LLMs alucinando citações inexistentes. A solução não é maravilhar com modelos maiores — é forçar verificação contra fontes externas dentro do loop. Sem isso, qualquer texto científico assistido por IA é especulação bem-articulada.

O peer review que aconteceu antes do paper

Aqui veio o movimento mais útil de toda a sessão. Pedi a quatro agentes independentes — sem contexto da minha conversa, com personas explícitas de "revisor crítico de periódico Q2" — que destrinchassem cada um dos quatro projetos.

O resultado foi cirúrgico:

Projeto	Críticos	Importantes	Menores
PAC	4	7	3
Bronquiolite	5	7	6
Asma aguda	3	7	3
Descritivo	4	6	5

O exemplo mais limpo veio do projeto de asma. Eu tinha incluído, como variável preditora do modelo, a dose cumulativa de broncodilatador inalatório administrada na primeira hora de internação. Faz sentido clínico: criança que precisa de mais nebulização está mais grave, certo? O revisor desmontou a lógica em um parágrafo: a dose cumulativa não é um sinal independente de gravidade — é a resposta do médico à gravidade que ele percebeu. Treinar um modelo com essa variável é ensiná-lo a copiar a decisão que o médico já tomou. Em ciência de dados isso se chama data leakage; em medicina, é o equivalente de medir febre depois de dar dipirona e dizer que o termômetro acertou o diagnóstico.

Eu não tinha visto. Apliquei as correções em commits separados, um por projeto, com mensagens detalhadas explicando o porquê. O documento final ficou marcadamente mais defensável do que o que eu teria escrito sozinho — não porque os agentes sabem mais do que eu (embora talvez saibam), mas porque eu não consigo ser meu próprio crítico hostil enquanto estou no meio da construção.

A parte que ainda é minha

Eu defini os critérios clínicos, escolhi os desfechos compostos, julguei onde os agentes estavam exagerando e onde tinham razão. Toda decisão substantiva passou pelo meu julgamento. Mas o que aconteceu não é "IA acelerando o que eu já faria de qualquer jeito" — sozinho, eu teria desenhado um projeto único, mais conservador, sem auditoria adversarial, sem a economia de escala de quatro projetos sob um único guarda-chuva ético.

O benchmark mudou: não é "a IA escreve um documento por mim", é "a IA me ajuda a fazer ciência que eu não teria feito sozinho — mais rápido e com mais rigor".

Cinco horas. Uma tarde de trabalho. Quatro projetos de pesquisa completos com revisão metodológica externa absorvida. Mas ainda preciso recrutar pediatras parceiros para adjudicação cega. Submeter o protocolo guarda-chuva ao Comitê de Ética. Convencer residentes a entrar como primeiros autores rotativos. Confirmar a infraestrutura de REDCap institucional. Treinar a equipe em protocolo padronizado de coleta. Acompanhar 27 meses de dados.

A IA acelera o desenho. A pesquisa em si — pacientes reais, residentes reais, comitê de ética real, dados reais coletados ao longo de três anos — continua sendo trabalho artesanal, lento, irredutível. E é exatamente isso que me deixa otimista.

Não porque IA "vai resolver a pesquisa clínica brasileira". Mas porque ela libera tempo que eu antes gastava em verificação de referências e organização de bibliografia para o que importa: pensar em quais perguntas valem a pena responder, e construir os relacionamentos humanos necessários para responder.

A pergunta deixa de ser "o que a IA pode fazer por mim?" e passa a ser "o que eu finalmente consigo fazer agora que tenho esse tipo de assistência?".

O brainstorming que faz uma pergunta de cada vez

A pesquisa de literatura que se verifica

O peer review que aconteceu antes do paper

A parte que ainda é minha

Posts relacionados