Ajuste fino de Qwen2.5-7B al 96% de Claude Haiku con $3 y cero etiquetadores humanos

Un desarrollador ajustó Qwen2.5-7B para alcanzar un 96% del rendimiento compuesto de Claude Haiku en una tarea de razonamiento de decisiones específica del dominio — gastando solo ~$3 en llamadas API y usando cero etiquetadores humanos. El método, llamado DV-DPO (Optimización Directa de Preferencias Validada por Decisiones), genera señal de entrenamiento de forma autónoma ejecutando un consejo adversarial de múltiples voces.
Cómo funciona DV-DPO
El pipeline ejecuta un consejo de 3 voces en cada pregunta de decisión, produciendo una síntesis. Luego, las dos voces perdedoras examinan la síntesis de forma adversarial. Si la síntesis es revisada bajo esta presión adversarial, se forma un par DPO: la versión posterior a la revisión es la respuesta elegida, y la versión anterior es la respuesta rechazada. Si la síntesis se mantiene — no se crea ningún par. Esto asegura que solo los errores genuinos de razonamiento generen señal de entrenamiento, no preferencias de formato o varianza de muestreo.
Resultados
- 1,040 pares de entrenamiento generados en total (~$3 a tarifas de Haiku)
- Cara a cara contra Claude Haiku: Formato 100%, Compromisos 100%, Contexto 89%, Compuesto 96%
- Latencia: 11s en GPU T4 (cuantizado a 4 bits) vs 3s de Haiku
- Tasa de fallo adversarial: 2% en 96 preguntas específicas
Ciclo de mejora autónomo
El sistema ahora ejecuta un ciclo automatizado: detector_de_fallos → auto_equipo_rojo → pares_DPO → reentrenar → redistribuir → evaluar. Se están acumulando pares de la versión 5. El modelo ajustado está disponible como un archivo GGUF listo para Ollama.
Para quién es esto
Desarrolladores que construyen agentes de razonamiento específicos del dominio que quieren pasar de APIs de pago por llamada a un modelo local ajustado sin costosa anotación humana.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

El desarrollador prefiere Qwen3.5-27B sobre los modelos propietarios por su modo de fallo
Un desarrollador en r/LocalLLaMA informa que prefiere Qwen3.5-27B sobre Gemini 3.1 Pro y GPT-5.3 Codex porque se rinde en tareas problemáticas en lugar de generar código potencialmente peligroso, como scripts de Perl o NodeJS sin restricciones.

Investigación: La IA está 'desagregando' empleos en tareas más específicas y peor remuneradas.
Un nuevo artículo argumenta que la IA no está eliminando empleos directamente, sino 'desagregándolos' en tareas más específicas, con ocupaciones de paquetes débiles viendo reducido su alcance y salario, mientras que los trabajos de paquetes fuertes pueden experimentar mejoras en el rendimiento.

Los Autoencoders de Lenguaje Natural de Anthropic convierten las activaciones de Claude en inglés legible — Así es como
Anthropic presenta los Autoencoders de Lenguaje Natural (NLAs) que convierten las activaciones internas de Claude en explicaciones en texto plano, revelando el razonamiento del modelo sobre rimas, conciencia de pruebas de seguridad y detección de trampas.

El Claude de Anthropic Realiza 80,000 Entrevistas Estructuradas como Alternativa a las Encuestas
Anthropic utilizó a Claude para realizar entrevistas estructuradas con aproximadamente 80,000 usuarios en más de 150 países y 70+ idiomas, con el LLM sirviendo tanto como entrevistador como analista para recopilar información conversacional.