Ajuste fino de Qwen2.5-7B al 96% de Claude Haiku con $3 y cero etiquetadores humanos

✍️ OpenClawRadar📅 Publicado: 11 de junio de 2026🔗 Source
Ajuste fino de Qwen2.5-7B al 96% de Claude Haiku con $3 y cero etiquetadores humanos
Ad

Un desarrollador ajustó Qwen2.5-7B para alcanzar un 96% del rendimiento compuesto de Claude Haiku en una tarea de razonamiento de decisiones específica del dominio — gastando solo ~$3 en llamadas API y usando cero etiquetadores humanos. El método, llamado DV-DPO (Optimización Directa de Preferencias Validada por Decisiones), genera señal de entrenamiento de forma autónoma ejecutando un consejo adversarial de múltiples voces.

Cómo funciona DV-DPO

El pipeline ejecuta un consejo de 3 voces en cada pregunta de decisión, produciendo una síntesis. Luego, las dos voces perdedoras examinan la síntesis de forma adversarial. Si la síntesis es revisada bajo esta presión adversarial, se forma un par DPO: la versión posterior a la revisión es la respuesta elegida, y la versión anterior es la respuesta rechazada. Si la síntesis se mantiene — no se crea ningún par. Esto asegura que solo los errores genuinos de razonamiento generen señal de entrenamiento, no preferencias de formato o varianza de muestreo.

Ad

Resultados

  • 1,040 pares de entrenamiento generados en total (~$3 a tarifas de Haiku)
  • Cara a cara contra Claude Haiku: Formato 100%, Compromisos 100%, Contexto 89%, Compuesto 96%
  • Latencia: 11s en GPU T4 (cuantizado a 4 bits) vs 3s de Haiku
  • Tasa de fallo adversarial: 2% en 96 preguntas específicas

Ciclo de mejora autónomo

El sistema ahora ejecuta un ciclo automatizado: detector_de_fallos → auto_equipo_rojo → pares_DPO → reentrenar → redistribuir → evaluar. Se están acumulando pares de la versión 5. El modelo ajustado está disponible como un archivo GGUF listo para Ollama.

Para quién es esto

Desarrolladores que construyen agentes de razonamiento específicos del dominio que quieren pasar de APIs de pago por llamada a un modelo local ajustado sin costosa anotación humana.

📖 Lee la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

El desarrollador prefiere Qwen3.5-27B sobre los modelos propietarios por su modo de fallo
Noticias

El desarrollador prefiere Qwen3.5-27B sobre los modelos propietarios por su modo de fallo

Un desarrollador en r/LocalLLaMA informa que prefiere Qwen3.5-27B sobre Gemini 3.1 Pro y GPT-5.3 Codex porque se rinde en tareas problemáticas en lugar de generar código potencialmente peligroso, como scripts de Perl o NodeJS sin restricciones.

OpenClawRadar
Investigación: La IA está 'desagregando' empleos en tareas más específicas y peor remuneradas.
Noticias

Investigación: La IA está 'desagregando' empleos en tareas más específicas y peor remuneradas.

Un nuevo artículo argumenta que la IA no está eliminando empleos directamente, sino 'desagregándolos' en tareas más específicas, con ocupaciones de paquetes débiles viendo reducido su alcance y salario, mientras que los trabajos de paquetes fuertes pueden experimentar mejoras en el rendimiento.

OpenClawRadar
Los Autoencoders de Lenguaje Natural de Anthropic convierten las activaciones de Claude en inglés legible — Así es como
Noticias

Los Autoencoders de Lenguaje Natural de Anthropic convierten las activaciones de Claude en inglés legible — Así es como

Anthropic presenta los Autoencoders de Lenguaje Natural (NLAs) que convierten las activaciones internas de Claude en explicaciones en texto plano, revelando el razonamiento del modelo sobre rimas, conciencia de pruebas de seguridad y detección de trampas.

OpenClawRadar
El Claude de Anthropic Realiza 80,000 Entrevistas Estructuradas como Alternativa a las Encuestas
Noticias

El Claude de Anthropic Realiza 80,000 Entrevistas Estructuradas como Alternativa a las Encuestas

Anthropic utilizó a Claude para realizar entrevistas estructuradas con aproximadamente 80,000 usuarios en más de 150 países y 70+ idiomas, con el LLM sirviendo tanto como entrevistador como analista para recopilar información conversacional.

OpenClawRadar