Usando a IA para criar a prova, verificar, fazer e corrigir
Segunda-feira na hora do almoço. Eu precisava de 80 questões de certo ou errado sobre legislação médica da Polícia Militar. O tipo de prova que demora dias para montar com cuidado — cada questão verificada contra o texto da lei, cada erro plantado com sutileza suficiente para testar raciocínio sem gerar recurso.
Fiz tudo em duas horas. Do celular. Pelo Telegram.
O pipeline
Tenho o Claude Code da Anthropic rodando num servidor remoto, conectado ao Telegram. Consigo pedir tarefas complexas de qualquer lugar — e ele executa: lê arquivos, escreve código, orquestra agentes em paralelo, faz commit no repositório.
Comecei alimentando o agente com as duas legislações: o Decreto 43.081/2022 e a Portaria PMDF 1.300/2022, além de uma prova anterior como modelo de formato. A partir daí, dois agentes trabalharam em paralelo — um para cada bloco de legislação — e geraram 80 questões com gabaritos comentados que referenciam artigo por artigo. Tudo organizado em fáceis (70%), médias (20%) e difíceis (10%).
Até aqui, impressionante mas não surpreendente. Qualquer LLM razoável consegue gerar questões de prova. O que veio depois é que ficou interessante.
O controle de qualidade
Pedi a um agente independente — um Claude Opus separado, sem acesso às respostas — que revisasse cada uma das 80 questões como um revisor jurídico-pedagógico de concurso. O briefing: "identifique ambiguidades, erros de gabarito, e questões que um aluno poderia contestar com razão."
O resultado foi cirúrgico. Das 80 questões:
- 65 estavam impecáveis
- 3 tinham risco alto de recurso — erros baseados em "ausência de previsão normativa", que um aluno com formação jurídica poderia contestar por analogia
- 8 tinham risco médio — simplificações ou imprecisões terminológicas
- 4 tinham risco baixo — aceitáveis mas melhoráveis
As três de risco alto compartilhavam um padrão: usavam como "erro" a ausência de algo na lei, o que é juridicamente argumentável. A correção foi simples — troquei erros filosóficos por erros burocráticos. Ninguém discute se o Subcomandante-Geral é o mesmo que Comandante-Geral. Bom, pelo menos não na prova.
A brincadeira
Das 80 questões corrigidas, separei 60 para a prova e 20 como exercícios preparatórios. E aí, não resisti. Mandei pelo Telegram:
"Aplica a prova a um agente Haiku. Vamos ver como ele se sai."
E depois, naturalmente, a coisa escalou:
"Vamos fazer com os três — Haiku, Sonnet e Opus. Todos com consulta à legislação."
Três agentes de IA, sentados na mesma "sala de aula virtual", fazendo a mesma prova de 60 questões, com acesso ao mesmo material de consulta. O professor aplica a prova e vai tomar café enquanto os alunos escrevem.
O resultado
| Modelo | Nota | Acertos | Fáceis | Médias | Difíceis |
|---|---|---|---|---|---|
| Sonnet 4.6 | 10,00 | 60/60 | 42/42 | 12/12 | 6/6 |
| Opus 4.6 | 9,83 | 59/60 | 42/42 | 11/12 | 6/6 |
| Haiku 4.5 | 8,67 | 52/60 | 37/42 | 11/12 | 4/6 |
O Sonnet tirou dez. Gabarito perfeito. Zero erros.
O Opus — o modelo mais poderoso e caro da família Claude — errou uma questão. Uma questão média, não difícil. E o motivo é delicioso: ele identificou que a redação da questão seguia o Decreto original, mas uma portaria posterior (a PMDF 1.344/2024, que altera a 1.300) tinha mudado a palavra "mínimo" para "preferencialmente". Considerou a questão errada por usar a redação desatualizada. Uma análise juridicamente sofisticada — e incorreta no contexto da prova.
O Haiku fez o que se espera de um modelo menor: acertou o essencial mas tropeçou nos detalhes. Trocou autoridades (DSAP por DGP), não percebeu "insanáveis" versus "sanáveis", confundiu fluxos recursais.
O que isso significa
Não é sobre IA ser "inteligente" ou "burra". É sobre o tipo de inteligência que cada tarefa exige.
Provas de legislação com consulta testam leitura precisa e aplicação direta. O aluno tem o texto na mão — não precisa memorizar, precisa encontrar e interpretar. Nesse cenário, o Sonnet — um modelo otimizado para velocidade e precisão — superou o Opus, que é otimizado para raciocínio profundo.
O Opus errou por pensar demais. Viu uma nuance real entre duas versões do texto legal, questionou a validade da questão, e chegou à resposta errada por excesso de rigor. É o equivalente computacional do aluno brilhante que, na hora da prova, escreve três parágrafos justificando por que a questão é mal formulada — e esquece de marcar a resposta.
Todo professor já teve esse aluno. Agora temos a versão artificial.
A reflexão que fica
O que me fascina não é a capacidade dos modelos de responder questões de legislação — isso é quase trivial com acesso ao texto. O que me fascina é o pipeline:
- Geração — dois agentes criaram 80 questões em paralelo
- Revisão — um agente independente fez auditoria jurídico-pedagógica
- Correção — dois agentes aplicaram as 15 correções sugeridas
- Teste — três agentes fizeram a prova como "alunos"
- Verificação — um agente conferiu numeração e correspondência questão-gabarito
- Consolidação — separação em exercícios + prova com renumeração
Seis etapas. Dez agentes. Duas horas. Um celular.
Isso não substitui o professor — eu defini os critérios, escolhi os temas, validei as correções, decidi o que era aceitável. Mas automatizou a parte mecânica: a verificação cruzada contra 1.600 linhas de legislação, a caça a ambiguidades, a garantia de que a questão 37 do gabarito corresponde à questão 37 da prova.
É o tipo de automação que libera tempo para o que importa: pensar no que eu quero que meus alunos aprendam, não em quantas vezes eu digitei errado "Subcomandante-Geral".