Usando a IA para criar a prova, verificar, fazer e corrigir

Segunda-feira na hora do almoço. Eu precisava de 80 questões de certo ou errado sobre legislação médica da Polícia Militar. O tipo de prova que demora dias para montar com cuidado — cada questão verificada contra o texto da lei, cada erro plantado com sutileza suficiente para testar raciocínio sem gerar recurso.

Fiz tudo em duas horas. Do celular. Pelo Telegram.

O pipeline

Tenho o Claude Code da Anthropic rodando num servidor remoto, conectado ao Telegram. Consigo pedir tarefas complexas de qualquer lugar — e ele executa: lê arquivos, escreve código, orquestra agentes em paralelo, faz commit no repositório.

Comecei alimentando o agente com as duas legislações: o Decreto 43.081/2022 e a Portaria PMDF 1.300/2022, além de uma prova anterior como modelo de formato. A partir daí, dois agentes trabalharam em paralelo — um para cada bloco de legislação — e geraram 80 questões com gabaritos comentados que referenciam artigo por artigo. Tudo organizado em fáceis (70%), médias (20%) e difíceis (10%).

Até aqui, impressionante mas não surpreendente. Qualquer LLM razoável consegue gerar questões de prova. O que veio depois é que ficou interessante.

O controle de qualidade

Pedi a um agente independente — um Claude Opus separado, sem acesso às respostas — que revisasse cada uma das 80 questões como um revisor jurídico-pedagógico de concurso. O briefing: "identifique ambiguidades, erros de gabarito, e questões que um aluno poderia contestar com razão."

O resultado foi cirúrgico. Das 80 questões:

65 estavam impecáveis
3 tinham risco alto de recurso — erros baseados em "ausência de previsão normativa", que um aluno com formação jurídica poderia contestar por analogia
8 tinham risco médio — simplificações ou imprecisões terminológicas
4 tinham risco baixo — aceitáveis mas melhoráveis

As três de risco alto compartilhavam um padrão: usavam como "erro" a ausência de algo na lei, o que é juridicamente argumentável. A correção foi simples — troquei erros filosóficos por erros burocráticos. Ninguém discute se o Subcomandante-Geral é o mesmo que Comandante-Geral. Bom, pelo menos não na prova.

A brincadeira

Das 80 questões corrigidas, separei 60 para a prova e 20 como exercícios preparatórios. E aí, não resisti. Mandei pelo Telegram:

"Aplica a prova a um agente Haiku. Vamos ver como ele se sai."

E depois, naturalmente, a coisa escalou:

"Vamos fazer com os três — Haiku, Sonnet e Opus. Todos com consulta à legislação."

Três agentes de IA, sentados na mesma "sala de aula virtual", fazendo a mesma prova de 60 questões, com acesso ao mesmo material de consulta. O professor aplica a prova e vai tomar café enquanto os alunos escrevem.

O resultado

Modelo	Nota	Acertos	Fáceis	Médias	Difíceis
Sonnet 4.6	10,00	60/60	42/42	12/12	6/6
Opus 4.6	9,83	59/60	42/42	11/12	6/6
Haiku 4.5	8,67	52/60	37/42	11/12	4/6

O Sonnet tirou dez. Gabarito perfeito. Zero erros.

O Opus — o modelo mais poderoso e caro da família Claude — errou uma questão. Uma questão média, não difícil. E o motivo é delicioso: ele identificou que a redação da questão seguia o Decreto original, mas uma portaria posterior (a PMDF 1.344/2024, que altera a 1.300) tinha mudado a palavra "mínimo" para "preferencialmente". Considerou a questão errada por usar a redação desatualizada. Uma análise juridicamente sofisticada — e incorreta no contexto da prova.

O Haiku fez o que se espera de um modelo menor: acertou o essencial mas tropeçou nos detalhes. Trocou autoridades (DSAP por DGP), não percebeu "insanáveis" versus "sanáveis", confundiu fluxos recursais.

O que isso significa

Não é sobre IA ser "inteligente" ou "burra". É sobre o tipo de inteligência que cada tarefa exige.

Provas de legislação com consulta testam leitura precisa e aplicação direta. O aluno tem o texto na mão — não precisa memorizar, precisa encontrar e interpretar. Nesse cenário, o Sonnet — um modelo otimizado para velocidade e precisão — superou o Opus, que é otimizado para raciocínio profundo.

O Opus errou por pensar demais. Viu uma nuance real entre duas versões do texto legal, questionou a validade da questão, e chegou à resposta errada por excesso de rigor. É o equivalente computacional do aluno brilhante que, na hora da prova, escreve três parágrafos justificando por que a questão é mal formulada — e esquece de marcar a resposta.

Todo professor já teve esse aluno. Agora temos a versão artificial.

A reflexão que fica

O que me fascina não é a capacidade dos modelos de responder questões de legislação — isso é quase trivial com acesso ao texto. O que me fascina é o pipeline:

Geração — dois agentes criaram 80 questões em paralelo
Revisão — um agente independente fez auditoria jurídico-pedagógica
Correção — dois agentes aplicaram as 15 correções sugeridas
Teste — três agentes fizeram a prova como "alunos"
Verificação — um agente conferiu numeração e correspondência questão-gabarito
Consolidação — separação em exercícios + prova com renumeração

Seis etapas. Dez agentes. Duas horas. Um celular.

Isso não substitui o professor — eu defini os critérios, escolhi os temas, validei as correções, decidi o que era aceitável. Mas automatizou a parte mecânica: a verificação cruzada contra 1.600 linhas de legislação, a caça a ambiguidades, a garantia de que a questão 37 do gabarito corresponde à questão 37 da prova.

É o tipo de automação que libera tempo para o que importa: pensar no que eu quero que meus alunos aprendam, não em quantas vezes eu digitei errado "Subcomandante-Geral".