O treino pode ser intensivo, mas o objetivo é obter performance de topo com modelos mais económicos, reduzindo custos em produção.

Reinforcement Fine-Tuning (RFT): guia completo para treinar modelos de raciocínio

Q: Quantos exemplos preciso?

100–300 exemplos de alta qualidade costumam ser suficientes para ganhos significativos em RFT.

Reinforcement Fine-Tuning (RFT): como treinar modelos de raciocínio com poucos dados

Do conceito à prática: rubricas de avaliação, design de tarefas, métricas e armadilhas comuns.

7 Setembro 2025

por Vitor Martins

Os modelos de raciocínio estão a transformar tarefas complexas. A questão é como adaptá-los a casos específicos sem grandes datasets.
A resposta é o Reinforcement Fine-Tuning (RFT): com dezenas a poucas centenas de exemplos e um grader bem desenhado, consegues ganhos de precisão e consistência. Este guia cobre o ciclo completo, do design da tarefa à colocação em produção.

1) O que é RFT e quando (não) usar

Índice

1.1 Conceito em 1 minuto

O RFT é um ciclo de tentativa-e-erro com recompensa:

O modelo gera múltiplas respostas para o mesmo input.
Um grader atribui uma pontuação contínua (0–1).
O modelo ajusta-se para maximizar essa recompensa, aprendendo como pensar.

1.2 RFT vs. SFT vs. PFT

Técnica	Dados necessários	Sinal de treino	Casos típicos
SFT	Pares input→output	Resposta correta	Classificação simples; formatos fixos
PFT	“Melhor vs. pior”	Preferência relativa	Estilo, tom, marketing
RFT	Exemplos + grader	Pontuação contínua	Raciocínio, jurídico, compliance, saúde

1.3 Quando faz sentido

Tarefas com resposta objetivamente verificável.
Baseline > 0 no modelo alvo (há algum acerto inicial).
O raciocínio é mais crítico do que “saber factos”.

Dica: esgota primeiro prompt engineering e RAG; só depois investe em RFT.

2) Desenhar a tarefa e o grader

2.1 Escolha da tarefa

Escopo estreito, outputs verificáveis.
Evitar políticas/rotulagens conflituosas no mesmo dataset.
Exemplos curtos e de avaliação automática preferível.

2.2 Anatomia de um bom grader

Contínuo (0–1), não binário.
Estratificador (distingue “quase certo” de “certo”).
Robusto a erros de formato/saídas vazias.

Exemplo: usar F1-score em classificação multilabel.

2.3 Reward hacking: como evitar

Evita métricas únicas fáceis de contornar (ex.: só recall).
Combina precisão + recall; adiciona penalizações de inviabilidade.
Testa com exemplos adversariais e edge cases.

3) Preparação de dados: qualidade > quantidade

3.1 Quantos exemplos?

100–300 exemplos de alta qualidade costumam bastar para ganhos visíveis em RFT.

3.2 Curadoria prática

Balancear classes no treino.
Validar com macro (idealizado) e micro (realista).
Trocar IDs por nomes canónicos (semântica).
Remover duplicados e ruído; incluir exemplos “difíceis mas limpos”.

3.3 Estrutura mínima de um item

{
  "id": "sample_001",
  "prompt": "Classifica este excerto legal nas categorias EuroVoc L1.",
  "input_text": "Este regulamento define regras para contratos de trabalho...",
  "reference_labels": ["Emprego", "União Europeia"],
  "metadata": {"idioma": "pt"}
}

4) Prompt e esquema de saída

4.1 Princípios do prompt

Curto, estável e com contexto essencial.
Lista canónica de opções visível quando aplicável.
Define formato de resposta obrigatório.

4.2 Structured outputs (recomendado)

{
  "labels": ["Emprego", "União Europeia"]
}

Benefícios: parsing garantido, menos falhas no grader e monitorização mais simples em produção.

5) Métricas e avaliação

5.1 Métricas base

Precisão: dos rótulos previstos, quantos estão certos?
Recall: dos rótulos corretos, quantos foram previstos?
F1: média harmónica entre precisão e recall.

5.2 Estudo de variância

Corre cada amostra várias vezes (p.ex., 3–9). Observa média, máximo e variância.
Se o máximo for alto mas a média baixa, há espaço para o RFT elevar a consistência.

5.3 Painel mínimo

Curva de recompensa em treino vs. validação.
Precisão e recall separados ao longo dos passos.
Tokens de raciocínio (impactam custo/latência).
Erros do grader e tempo de avaliação.

6) Treino com RFT: passo-a-passo

Modelo base (p.ex., um modelo de raciocínio “mini”).
Reasoning effort: começa em low, sobe se necessário.
Prepara train e val com prompt embutido (se dinâmico/RAG).
Valida grader e schema antes de treinar.
Monitoriza gráficos; queres subida em treino e validação.
Guarda checkpoints (top-k melhores).

7) Escolha do checkpoint e colocação em produção

7.1 Seleção pelo objetivo

Baixa latência/custo: checkpoint com menos tokens de raciocínio.
Maior confiança: checkpoint com melhor precisão (ou F1 mais alto).

7.2 Monitorização em runtime

Taxa de parsing inválido.
Distribuição de classes prevista vs. histórica.
F1 proxy com amostras rotuladas periodicamente.

7.3 Controlo de custos

Limitar reasoning effort e contexto.
Caching estratégico.
Limiares de confiança e filtros.

8) Casos de uso práticos

Compliance/políticas: substituir pipelines de regras por um agente treinado em lógica de políticas.
Jurídico: classificação legal e verificação de conformidade.
Saúde: codificação clínica com graders validados por peritos.

9) Armadilhas comuns

Grader binário (sinal pobre).
Dados inconsistentes/ruidosos.
Overfitting ao treino balanceado sem validar em distribuição real.
Mudar o prompt no deployment.
Ignorar métricas de safety e adversarialidade.

10) Checklist final

✔️ Tarefa objetiva com baseline > 0
✔️ Grader contínuo, robusto e estratificador
✔️ Dados limpos, balanceados; nomes canónicos (sem IDs opacos)
✔️ Prompt estável + schema definido
✔️ Avaliação com variância e F1
✔️ Checkpoint alinhado a custo/qualidade
✔️ Monitorização ativa em produção

FAQ sobre RFT

P: Quantos exemplos preciso?

R: 100–300 exemplos de alta qualidade costumam ser suficientes para ganhos significativos.

P: Posso usar dados ruidosos?

R: Evita. Em RFT cada amostra pesa muito; reduz quantidade e melhora qualidade.

P: O RFT é caro?

R: O treino pode ser intensivo, mas a meta é obter performance de topo com modelos mais económicos, reduzindo o custo por chamada em produção.

P: Posso mudar o prompt depois?

R: Não é recomendado. Mantém o prompt de inferência alinhado com o usado no treino.

Recursos

- Artigo relacionado: LLMs na Fiscalidade: Fine-tuning vs RAG em Análise Detalhada