Como Pequenos Modelos de Avaliação de Prompts Podem Enganar e Como Corrigi-los

✍️ OpenClawRadar📅 Publicado: March 9, 2026🔗 Source
Como Pequenos Modelos de Avaliação de Prompts Podem Enganar e Como Corrigi-los
Ad

Uma análise detalhada no r/LocalLLaMA explica por que prompts de avaliação para modelos pequenos (como modelos de 7B ou 12B de parâmetros) frequentemente produzem pontuações enganosas e excessivamente otimistas que não correspondem à qualidade real da saída. O problema central não é a capacidade do modelo, mas como os prompts ativam diferentes vias cognitivas nas arquiteturas de transformadores.

Os Três Modos Cognitivos dos Transformadores

A postagem identifica três vias funcionais que os modelos usam com base na linguagem do prompt:

  • Dimensão 1 (D1) — Recuperação Factual: Ativada por perguntas como "O que é...", "Defina...", "Quando...". O modelo recupera conhecimento armazenado durante o treinamento. Para tarefas de avaliação, isso é principalmente irrelevante.
  • Dimensão 2 (D2) — Aplicação e Seguimento de Instruções: Ativada por linguagem como "Analise...", "Classifique...", "Aplique estes critérios...". O modelo aplica regras explícitas, segue instruções estruturadas e classifica entradas contra critérios fornecidos. Esta é a via confiável onde os modelos pequenos são genuinamente competentes.
  • Dimensão 3 (D3) — Inferência Emocional e Empática: Ativada por linguagem como "Como isso deve fazer sentir?", "Qual resposta emocional é apropriada?", "Como um assistente empático...". O modelo infere contexto emocional não declarado e faz julgamentos normativos sobre como as coisas "devem" fazer sentir, roteando através do condicionamento RLHF em vez de evidências no prompt. Modelos pequenos são pouco confiáveis aqui, com viés consistentemente tendendo ao positivo e de apoio, independentemente do conteúdo real.

A Percepção do Roteamento

A percepção chave: "Analise o conteúdo emocional" ativa a D2 (o modelo examina o texto e o classifica), enquanto "O que o usuário deve estar sentindo?" ativa a D3 (o modelo adivinha o que uma IA útil diria). Essas perguntas parecem equivalentes, mas produzem saídas sistematicamente diferentes.

Ad

Exemplo Concreto de Falha

O autor testou isso empiricamente com um analisador de sentimento Mistral 7B para um sistema de IA conversacional. O prompt original (simplificado):

Você é um companheiro de IA empático analisando conteúdo emocional. Analise esta mensagem e retorne: { "tom": "quente, afetuoso, grato", "intensidade": 0.0 a 1.0, "descritores": ["exemplo1", "exemplo2"] }

O que aconteceu: Mensagens neutras retornaram tom levemente positivo. Mensagens levemente negativas foram pontuadas como neutras ou levemente positivas. Valores de intensidade para conteúdo negativo foram consistentemente menores do que valores de intensidade para conteúdo positivo equivalente. Este viés sistemático e reproduzível é chamado de desvio fantasma positivo — o condicionamento RLHF do modelo puxando as saídas para respostas de apoio e positivas, independentemente do conteúdo real da entrada.

Três coisas causaram esta falha:

  • "Companheiro de IA empático" ativou a D3, deslocando o modelo para a via de expectativa social
  • Valores de exemplo no modelo JSON ("quente, afetuoso, grato") prepararam o modelo para saídas positivas
  • O modelo estava gerando o que uma IA útil diria em vez de analisar a evidência

A postagem enfatiza que modelos pequenos podem ter bom desempenho em tarefas de avaliação quando os prompts ativam deliberadamente a D2 (aplicação/seguimento de instruções) em vez da D3 (inferência emocional). A diferença entre "Analise o conteúdo emocional" e "O que o usuário deve estar sentindo?" determina se você obtém classificação confiável ou respostas de expectativa social tendenciosas.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also