Cómo Engañan los Prompts de Evaluación en Modelos Pequeños y Solución

Un análisis detallado en r/LocalLLaMA explica por qué las indicaciones de evaluación para modelos pequeños (como modelos de 7B o 12B parámetros) a menudo producen puntuaciones engañosas y excesivamente optimistas que no coinciden con la calidad real de la salida. El problema central no es la capacidad del modelo, sino cómo las indicaciones activan diferentes vías cognitivas en las arquitecturas de transformadores.

Los tres modos cognitivos de los transformadores

La publicación identifica tres vías funcionales que los modelos utilizan según el lenguaje de la indicación:

Dimensión 1 (D1) — Recuperación de hechos: Activada por preguntas como "¿Qué es...", "Define...", "¿Cuándo...". El modelo recupera conocimiento almacenado durante el entrenamiento. Para tareas de evaluación, esto es mayormente irrelevante.
Dimensión 2 (D2) — Aplicación y seguimiento de instrucciones: Activada por lenguaje como "Analiza...", "Clasifica...", "Aplica estos criterios...". El modelo aplica reglas explícitas, sigue instrucciones estructuradas y clasifica entradas según criterios proporcionados. Esta es la vía confiable donde los modelos pequeños son genuinamente competentes.
Dimensión 3 (D3) — Inferencia emocional y empática: Activada por lenguaje como "¿Cómo debería sentirse esto?", "¿Qué respuesta emocional es apropiada?", "Como asistente empático...". El modelo infiere contexto emocional no declarado y hace juicios normativos sobre cómo las cosas "deberían" sentirse, canalizando a través del condicionamiento RLHF en lugar de evidencia en la indicación. Los modelos pequeños son poco confiables aquí, con un sesgo consistentemente positivo y de apoyo independientemente del contenido real.

La idea central del enrutamiento

La idea clave: "Analiza el contenido emocional" activa D2 (el modelo examina el texto y lo clasifica), mientras que "¿Qué debería estar sintiendo el usuario?" activa D3 (el modelo adivina lo que una IA útil diría). Estas preguntas parecen equivalentes pero producen salidas sistemáticamente diferentes.

Ejemplo concreto de fallo

El autor probó esto empíricamente con un analizador de sentimientos Mistral 7B para un sistema de IA conversacional. La indicación original (simplificada):

Eres un compañero de IA empático que analiza contenido emocional. Analiza este mensaje y devuelve: { "tono": "cálido, afectuoso, agradecido", "intensidad": 0.0 a 1.0, "descriptores": ["ejemplo1", "ejemplo2"] }

Lo que sucedió: Los mensajes neutrales devolvieron un tono ligeramente positivo. Los mensajes ligeramente negativos se calificaron como neutrales o ligeramente positivos. Los valores de intensidad para contenido negativo fueron consistentemente más bajos que los valores de intensidad para contenido positivo equivalente. Este sesgo sistemático y reproducible se llama desviación fantasma positiva — el condicionamiento RLHF del modelo empujando las salidas hacia respuestas de apoyo y positivas independientemente del contenido real de la entrada.

Tres cosas causaron este fallo:

"Compañero de IA empático" activó D3, desplazando al modelo hacia la vía de expectativas sociales
Los valores de ejemplo en la plantilla JSON ("cálido, afectuoso, agradecido") predisponen al modelo hacia salidas positivas
El modelo estaba generando lo que una IA útil diría en lugar de analizar la evidencia

La publicación enfatiza que los modelos pequeños pueden desempeñarse bien en tareas de evaluación cuando las indicaciones activan deliberadamente D2 (aplicación/seguimiento de instrucciones) en lugar de D3 (inferencia emocional). La diferencia entre "Analiza el contenido emocional" y "¿Qué debería estar sintiendo el usuario?" determina si obtienes clasificación confiable o respuestas sesgadas de expectativa social.

📖 Read the full source: r/LocalLLaMA

Cómo los Prompts de Evaluación de Modelos Pequeños Pueden Engañar y Cómo Solucionarlos

Los tres modos cognitivos de los transformadores

La idea central del enrutamiento

Ejemplo concreto de fallo

👀 Ver también

Solución de problemas de OpenClaw: Un método de reinicio minimalista

Lista de verificación de configuración de OpenClaw: seis pasos críticos para nuevos usuarios.

Lista de Verificación para la Evaluación de Rendimiento de la CLI de OpenClaw

Estructurando Proyectos de Código Claude con CLAUDE.md, Habilidades y MCP