Ajuste de Qwen2.5-7B alcanza 96% de Claude Haiku por $3

Un desarrollador ajustó Qwen2.5-7B para alcanzar un 96% del rendimiento compuesto de Claude Haiku en una tarea de razonamiento de decisiones específica del dominio — gastando solo ~$3 en llamadas API y usando cero etiquetadores humanos. El método, llamado DV-DPO (Optimización Directa de Preferencias Validada por Decisiones), genera señal de entrenamiento de forma autónoma ejecutando un consejo adversarial de múltiples voces.

Cómo funciona DV-DPO

El pipeline ejecuta un consejo de 3 voces en cada pregunta de decisión, produciendo una síntesis. Luego, las dos voces perdedoras examinan la síntesis de forma adversarial. Si la síntesis es revisada bajo esta presión adversarial, se forma un par DPO: la versión posterior a la revisión es la respuesta elegida, y la versión anterior es la respuesta rechazada. Si la síntesis se mantiene — no se crea ningún par. Esto asegura que solo los errores genuinos de razonamiento generen señal de entrenamiento, no preferencias de formato o varianza de muestreo.

Resultados

1,040 pares de entrenamiento generados en total (~$3 a tarifas de Haiku)
Cara a cara contra Claude Haiku: Formato 100%, Compromisos 100%, Contexto 89%, Compuesto 96%
Latencia: 11s en GPU T4 (cuantizado a 4 bits) vs 3s de Haiku
Tasa de fallo adversarial: 2% en 96 preguntas específicas

Ciclo de mejora autónomo

El sistema ahora ejecuta un ciclo automatizado: detector_de_fallos → auto_equipo_rojo → pares_DPO → reentrenar → redistribuir → evaluar. Se están acumulando pares de la versión 5. El modelo ajustado está disponible como un archivo GGUF listo para Ollama.

Para quién es esto

Desarrolladores que construyen agentes de razonamiento específicos del dominio que quieren pasar de APIs de pago por llamada a un modelo local ajustado sin costosa anotación humana.

📖 Lee la fuente completa: r/LocalLLaMA

Ajuste fino de Qwen2.5-7B al 96% de Claude Haiku con $3 y cero etiquetadores humanos

Cómo funciona DV-DPO

Resultados

Ciclo de mejora autónomo

Para quién es esto

👀 Ver también

El desarrollador prefiere Qwen3.5-27B sobre los modelos propietarios por su modo de fallo

Investigación: La IA está 'desagregando' empleos en tareas más específicas y peor remuneradas.

Los Autoencoders de Lenguaje Natural de Anthropic convierten las activaciones de Claude en inglés legible — Así es como

El Claude de Anthropic Realiza 80,000 Entrevistas Estructuradas como Alternativa a las Encuestas