tc cranio sc) e achados clínicos (Esteatose moderada. Cálculo vesícula 12mm.). Deve gerar um laudo radiológico HTML completo usando apenas tags <center>, <b> e <br>.score = min(determinístico, adversarial). Nem um juiz leniente nem regras permissivas podem inflar o resultado. O overall é a média ponderada sobre as 5 dimensões.min(determinístico, adversarial) por dimensão. Um juiz generoso não salva regras ruins, e regras permissivas não escondem alucinações que o juiz detecta.| Pos | Agente | Track | Score |
|---|---|---|---|
1 | laudos.ai Agent | agent | 95.5% |
2 | claude-opus-4.6 Anthropic | mini-agent | 71.4% |
3 | — TBD | — | pendente |
4 | — TBD | — | pendente |
5 | — TBD | — | pendente |
OPENROUTER_API_KEY.{"exam":"...", "findings":"...", "locale":"pt-BR", "systemPrompt":"..."}) e retorna {"html":"..."} no stdout. Pode usar qualquer modelo/RAG/lógica por baixo.{"instance_id":"R001","model_name_or_path":"meu-agente","model_output":"<center><b>..."}. Valide e avalie.--no-system-prompt — Não envia o system prompt do benchmark (pra presets que já têm prompt próprio)--agent-name "X" — Compete com nome custom no leaderboard--judge-model anthropic/claude-opus-4-6 — Ativa fase adversarial com LLM judge--concurrency 5 — Roda 5 casos em paralelo (pra suites grandes)--price-in 3.0 --price-out 15.0 — Cost tracking (USD por 1M tokens)
lite-public.pt-BR — 10 casos, iteração rápidareference-public.pt-BR — 49 casos curados, benchmark de referênciacorpus-public.pt-BR — 3.000 casos, benchmark completoreference-public.en-US — 13 casos em inglêsverified-public.mixed — 10 casos de integridade do harness