Reinforcement Fine-Tuning (RFT): como treinar modelos de raciocínio com poucos dados
Do conceito à prática: rubricas de avaliação, design de tarefas, métricas e armadilhas comuns.
por Vitor Martins
A resposta é o Reinforcement Fine-Tuning (RFT): com dezenas a poucas centenas de exemplos e um grader bem desenhado, consegues ganhos de precisão e consistência. Este guia cobre o ciclo completo, do design da tarefa à colocação em produção.
1) O que é RFT e quando (não) usar
Índice
Toggle1.1 Conceito em 1 minuto
O RFT é um ciclo de tentativa-e-erro com recompensa:
- O modelo gera múltiplas respostas para o mesmo input.
- Um grader atribui uma pontuação contínua (0–1).
- O modelo ajusta-se para maximizar essa recompensa, aprendendo como pensar.
1.2 RFT vs. SFT vs. PFT
| Técnica | Dados necessários | Sinal de treino | Casos típicos |
|---|---|---|---|
| SFT | Pares input→output | Resposta correta | Classificação simples; formatos fixos |
| PFT | “Melhor vs. pior” | Preferência relativa | Estilo, tom, marketing |
| RFT | Exemplos + grader | Pontuação contínua | Raciocínio, jurídico, compliance, saúde |
1.3 Quando faz sentido
- Tarefas com resposta objetivamente verificável.
- Baseline > 0 no modelo alvo (há algum acerto inicial).
- O raciocínio é mais crítico do que “saber factos”.
Dica: esgota primeiro prompt engineering e RAG; só depois investe em RFT.
2) Desenhar a tarefa e o grader
2.1 Escolha da tarefa
- Escopo estreito, outputs verificáveis.
- Evitar políticas/rotulagens conflituosas no mesmo dataset.
- Exemplos curtos e de avaliação automática preferível.
2.2 Anatomia de um bom grader
- Contínuo (0–1), não binário.
- Estratificador (distingue “quase certo” de “certo”).
- Robusto a erros de formato/saídas vazias.
Exemplo: usar F1-score em classificação multilabel.
2.3 Reward hacking: como evitar
- Evita métricas únicas fáceis de contornar (ex.: só recall).
- Combina precisão + recall; adiciona penalizações de inviabilidade.
- Testa com exemplos adversariais e edge cases.
3) Preparação de dados: qualidade > quantidade
3.1 Quantos exemplos?
100–300 exemplos de alta qualidade costumam bastar para ganhos visíveis em RFT.
3.2 Curadoria prática
- Balancear classes no treino.
- Validar com macro (idealizado) e micro (realista).
- Trocar IDs por nomes canónicos (semântica).
- Remover duplicados e ruído; incluir exemplos “difíceis mas limpos”.
3.3 Estrutura mínima de um item
{
"id": "sample_001",
"prompt": "Classifica este excerto legal nas categorias EuroVoc L1.",
"input_text": "Este regulamento define regras para contratos de trabalho...",
"reference_labels": ["Emprego", "União Europeia"],
"metadata": {"idioma": "pt"}
}
4) Prompt e esquema de saída
4.1 Princípios do prompt
- Curto, estável e com contexto essencial.
- Lista canónica de opções visível quando aplicável.
- Define formato de resposta obrigatório.
4.2 Structured outputs (recomendado)
{
"labels": ["Emprego", "União Europeia"]
}
Benefícios: parsing garantido, menos falhas no grader e monitorização mais simples em produção.
5) Métricas e avaliação
5.1 Métricas base
- Precisão: dos rótulos previstos, quantos estão certos?
- Recall: dos rótulos corretos, quantos foram previstos?
- F1: média harmónica entre precisão e recall.
5.2 Estudo de variância
Corre cada amostra várias vezes (p.ex., 3–9). Observa média, máximo e variância.
Se o máximo for alto mas a média baixa, há espaço para o RFT elevar a consistência.
5.3 Painel mínimo
- Curva de recompensa em treino vs. validação.
- Precisão e recall separados ao longo dos passos.
- Tokens de raciocínio (impactam custo/latência).
- Erros do grader e tempo de avaliação.
6) Treino com RFT: passo-a-passo
- Modelo base (p.ex., um modelo de raciocínio “mini”).
- Reasoning effort: começa em low, sobe se necessário.
- Prepara train e val com prompt embutido (se dinâmico/RAG).
- Valida grader e schema antes de treinar.
- Monitoriza gráficos; queres subida em treino e validação.
- Guarda checkpoints (top-k melhores).
7) Escolha do checkpoint e colocação em produção
7.1 Seleção pelo objetivo
- Baixa latência/custo: checkpoint com menos tokens de raciocínio.
- Maior confiança: checkpoint com melhor precisão (ou F1 mais alto).
7.2 Monitorização em runtime
- Taxa de parsing inválido.
- Distribuição de classes prevista vs. histórica.
- F1 proxy com amostras rotuladas periodicamente.
7.3 Controlo de custos
- Limitar reasoning effort e contexto.
- Caching estratégico.
- Limiares de confiança e filtros.
8) Casos de uso práticos
- Compliance/políticas: substituir pipelines de regras por um agente treinado em lógica de políticas.
- Jurídico: classificação legal e verificação de conformidade.
- Saúde: codificação clínica com graders validados por peritos.
9) Armadilhas comuns
- Grader binário (sinal pobre).
- Dados inconsistentes/ruidosos.
- Overfitting ao treino balanceado sem validar em distribuição real.
- Mudar o prompt no deployment.
- Ignorar métricas de safety e adversarialidade.
10) Checklist final
- ✔️ Tarefa objetiva com baseline > 0
- ✔️ Grader contínuo, robusto e estratificador
- ✔️ Dados limpos, balanceados; nomes canónicos (sem IDs opacos)
- ✔️ Prompt estável + schema definido
- ✔️ Avaliação com variância e F1
- ✔️ Checkpoint alinhado a custo/qualidade
- ✔️ Monitorização ativa em produção
FAQ sobre RFT
P: Quantos exemplos preciso?
R: 100–300 exemplos de alta qualidade costumam ser suficientes para ganhos significativos.
P: Posso usar dados ruidosos?
R: Evita. Em RFT cada amostra pesa muito; reduz quantidade e melhora qualidade.
P: O RFT é caro?
R: O treino pode ser intensivo, mas a meta é obter performance de topo com modelos mais económicos, reduzindo o custo por chamada em produção.
P: Posso mudar o prompt depois?
R: Não é recomendado. Mantém o prompt de inferência alinhado com o usado no treino.
Recursos
-
- Artigo relacionado: LLMs na Fiscalidade: Fine-tuning vs RAG em Análise Detalhada
Vítor Martins é consultor, formador e contabilista certificado, com mais de 30 anos de experiência em gestão, contabilidade e otimização fiscal. Pós-graduado em Marketing Digital e com formação universitária internacional em Inteligência Artificial, é especialista na aplicação de IA a pequenas e médias empresas. Pioneiro na integração de tecnologias inteligentes na contabilidade e gestão, atua como mentor e consultor estratégico, ajudando empreendedores a digitalizar os seus negócios com soluções eficientes e sustentáveis.