Skip to content

Reinforcement Fine-Tuning (RFT): guia completo para treinar modelos de raciocínio

Diagrama visual representando Reinforcement Fine-Tuning (RFT), com um modelo de inteligência artificial no centro, setas circulares a indicar o ciclo de feedback e uma entidade a avaliar respostas, em estilo minimalista com tons de azul e cinza, sem texto

Reinforcement Fine-Tuning (RFT): como treinar modelos de raciocínio com poucos dados

Do conceito à prática: rubricas de avaliação, design de tarefas, métricas e armadilhas comuns.

por Vitor Martins

Os modelos de raciocínio estão a transformar tarefas complexas. A questão é como adaptá-los a casos específicos sem grandes datasets.
A resposta é o Reinforcement Fine-Tuning (RFT): com dezenas a poucas centenas de exemplos e um grader bem desenhado, consegues ganhos de precisão e consistência. Este guia cobre o ciclo completo, do design da tarefa à colocação em produção.

1) O que é RFT e quando (não) usar

1.1 Conceito em 1 minuto

O RFT é um ciclo de tentativa-e-erro com recompensa:

  1. O modelo gera múltiplas respostas para o mesmo input.
  2. Um grader atribui uma pontuação contínua (0–1).
  3. O modelo ajusta-se para maximizar essa recompensa, aprendendo como pensar.

1.2 RFT vs. SFT vs. PFT

Técnica Dados necessários Sinal de treino Casos típicos
SFT Pares input→output Resposta correta Classificação simples; formatos fixos
PFT “Melhor vs. pior” Preferência relativa Estilo, tom, marketing
RFT Exemplos + grader Pontuação contínua Raciocínio, jurídico, compliance, saúde

1.3 Quando faz sentido

  • Tarefas com resposta objetivamente verificável.
  • Baseline > 0 no modelo alvo (há algum acerto inicial).
  • O raciocínio é mais crítico do que “saber factos”.

Dica: esgota primeiro prompt engineering e RAG; só depois investe em RFT.

2) Desenhar a tarefa e o grader

2.1 Escolha da tarefa

  • Escopo estreito, outputs verificáveis.
  • Evitar políticas/rotulagens conflituosas no mesmo dataset.
  • Exemplos curtos e de avaliação automática preferível.

2.2 Anatomia de um bom grader

  • Contínuo (0–1), não binário.
  • Estratificador (distingue “quase certo” de “certo”).
  • Robusto a erros de formato/saídas vazias.

Exemplo: usar F1-score em classificação multilabel.

2.3 Reward hacking: como evitar

  • Evita métricas únicas fáceis de contornar (ex.: só recall).
  • Combina precisão + recall; adiciona penalizações de inviabilidade.
  • Testa com exemplos adversariais e edge cases.

3) Preparação de dados: qualidade > quantidade

3.1 Quantos exemplos?

100–300 exemplos de alta qualidade costumam bastar para ganhos visíveis em RFT.

3.2 Curadoria prática

  • Balancear classes no treino.
  • Validar com macro (idealizado) e micro (realista).
  • Trocar IDs por nomes canónicos (semântica).
  • Remover duplicados e ruído; incluir exemplos “difíceis mas limpos”.

3.3 Estrutura mínima de um item

{
  "id": "sample_001",
  "prompt": "Classifica este excerto legal nas categorias EuroVoc L1.",
  "input_text": "Este regulamento define regras para contratos de trabalho...",
  "reference_labels": ["Emprego", "União Europeia"],
  "metadata": {"idioma": "pt"}
}

4) Prompt e esquema de saída

4.1 Princípios do prompt

  • Curto, estável e com contexto essencial.
  • Lista canónica de opções visível quando aplicável.
  • Define formato de resposta obrigatório.

4.2 Structured outputs (recomendado)

{
  "labels": ["Emprego", "União Europeia"]
}

Benefícios: parsing garantido, menos falhas no grader e monitorização mais simples em produção.

5) Métricas e avaliação

5.1 Métricas base

  • Precisão: dos rótulos previstos, quantos estão certos?
  • Recall: dos rótulos corretos, quantos foram previstos?
  • F1: média harmónica entre precisão e recall.

5.2 Estudo de variância

Corre cada amostra várias vezes (p.ex., 3–9). Observa média, máximo e variância.
Se o máximo for alto mas a média baixa, há espaço para o RFT elevar a consistência.

5.3 Painel mínimo

  • Curva de recompensa em treino vs. validação.
  • Precisão e recall separados ao longo dos passos.
  • Tokens de raciocínio (impactam custo/latência).
  • Erros do grader e tempo de avaliação.

6) Treino com RFT: passo-a-passo

  1. Modelo base (p.ex., um modelo de raciocínio “mini”).
  2. Reasoning effort: começa em low, sobe se necessário.
  3. Prepara train e val com prompt embutido (se dinâmico/RAG).
  4. Valida grader e schema antes de treinar.
  5. Monitoriza gráficos; queres subida em treino e validação.
  6. Guarda checkpoints (top-k melhores).

7) Escolha do checkpoint e colocação em produção

7.1 Seleção pelo objetivo

  • Baixa latência/custo: checkpoint com menos tokens de raciocínio.
  • Maior confiança: checkpoint com melhor precisão (ou F1 mais alto).

7.2 Monitorização em runtime

  • Taxa de parsing inválido.
  • Distribuição de classes prevista vs. histórica.
  • F1 proxy com amostras rotuladas periodicamente.

7.3 Controlo de custos

  • Limitar reasoning effort e contexto.
  • Caching estratégico.
  • Limiares de confiança e filtros.

8) Casos de uso práticos

  • Compliance/políticas: substituir pipelines de regras por um agente treinado em lógica de políticas.
  • Jurídico: classificação legal e verificação de conformidade.
  • Saúde: codificação clínica com graders validados por peritos.

9) Armadilhas comuns

  • Grader binário (sinal pobre).
  • Dados inconsistentes/ruidosos.
  • Overfitting ao treino balanceado sem validar em distribuição real.
  • Mudar o prompt no deployment.
  • Ignorar métricas de safety e adversarialidade.

10) Checklist final

  • ✔️ Tarefa objetiva com baseline > 0
  • ✔️ Grader contínuo, robusto e estratificador
  • ✔️ Dados limpos, balanceados; nomes canónicos (sem IDs opacos)
  • ✔️ Prompt estável + schema definido
  • ✔️ Avaliação com variância e F1
  • ✔️ Checkpoint alinhado a custo/qualidade
  • ✔️ Monitorização ativa em produção

FAQ sobre RFT

P: Quantos exemplos preciso?

R: 100–300 exemplos de alta qualidade costumam ser suficientes para ganhos significativos.

P: Posso usar dados ruidosos?

R: Evita. Em RFT cada amostra pesa muito; reduz quantidade e melhora qualidade.

P: O RFT é caro?

R: O treino pode ser intensivo, mas a meta é obter performance de topo com modelos mais económicos, reduzindo o custo por chamada em produção.

P: Posso mudar o prompt depois?

R: Não é recomendado. Mantém o prompt de inferência alinhado com o usado no treino.

Recursos

Próximos passos

Cria o teu primeiro grader baseado em F1, seleciona 100 exemplos de qualidade e corre um treino piloto. Partilha os resultados.