El ajuste fino de Qwen3.5-2B con la arquitectura RAG-Engram mejora la precisión de respuestas fundamentadas del 50% al 93% en un contexto de 8K.

✍️ OpenClawRadar📅 Publicado: 27 de marzo de 2026🔗 Source
El ajuste fino de Qwen3.5-2B con la arquitectura RAG-Engram mejora la precisión de respuestas fundamentadas del 50% al 93% en un contexto de 8K.
Ad

Enfoque de ajuste fino para mejorar el rendimiento de RAG

Un desarrollador ha creado una versión ajustada de Qwen3.5-2B que aborda el fenómeno de 'perdido en el medio' y las alucinaciones en modelos de lenguaje pequeños cuando las ventanas de contexto se saturan con aproximadamente 8K tokens de datos recuperados. La arquitectura personalizada, llamada RAG-Engram, mejoró las respuestas correctas en 8K tokens del 50% al 93% en 14 consultas del mundo real.

Detalles de la arquitectura

El sistema RAG-Engram es un sistema de dos niveles construido alrededor de la arquitectura híbrida Gated DeltaNet de Qwen3.5-2B:

  • Nivel 1 — Tabla Engram Estática: 135K incrustaciones de entidades precalculadas (nombres propios indios, esquemas gubernamentales, frases en hindi, términos financieros) almacenadas en la RAM de la CPU. Esto libera la atención del modelo de tener que reconstruir entidades conocidas.
  • Nivel 2 — Navegación Dinámica de Fragmentos: En tiempo de inferencia, un extractor ligero de spaCy (~15MB) escanea los fragmentos recuperados, construye un mapa de punteros de dónde aparecen las entidades clave y genera una matriz de sesgo de atención. Esto se añade a las puntuaciones Q·K^T antes de softmax en las capas 3 y 15 (las capas de atención completa en la arquitectura híbrida — las otras 18 capas son Gated DeltaNet que no tienen atención softmax).

El enfoque indica a las cabezas de atención dónde mirar en lugar de hacer que el modelo escanee ciegamente 8,000 tokens con la esperanza de encontrar respuestas.

Ad

Especificaciones de entrenamiento

  • Modelo base: Qwen3.5-2B-Base
  • Método: LoRA (r=16, alpha=16) vía Unsloth
  • Datos: 2,168 ejemplos destilados de DeepSeek V3 a través de MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K
  • Tiempo de entrenamiento: 15 minutos en Modal (una sola GPU)
  • Pérdida de Entrenamiento/Validación: 1.369 / 1.385 — sin sobreajuste

El ajuste fino supervisado enseña al modelo a responder en un estilo conversacional específico (markdown, ideas clave en negrita, fundamentación de fuentes), mientras que el sesgo Engram maneja la navegación de atención en contextos largos.

Resultados de evaluación

La evaluación fue realizada por Claude Opus 4.6 usando fragmentos de resultados de búsqueda de Google rellenados a 8K tokens:

  • Qwen3.5-2B Vanilla: 50% de respuestas correctas en 8K tokens, 14% de fallos/rechazos
  • Drissy + RAG-Engram: 93% de respuestas correctas en 8K tokens, 0% de fallos/rechazos

La combinación eliminó completamente los fallos de 'perdido en el medio'. El desarrollador informa que todo el proyecto, desde la especificación hasta HuggingFace, tomó unas 2 semanas y costó menos que un café.

Disponibilidad del modelo

El modelo ajustado está disponible como:

  • Modelo: drissea-ai/drissy-qwen3.5-2b
  • GGUF: drissea-ai/drissy-qwen3.5-2b-GGUF

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Máquina Virtual Lógica: Un Sistema Basado en Prompts para Detener los Colapsos del Razonamiento en LLM
Herramientas

Máquina Virtual Lógica: Un Sistema Basado en Prompts para Detener los Colapsos del Razonamiento en LLM

Un investigador ha desarrollado un prompt de Máquina Virtual Lógica (LVM) que obliga a los LLMs a detenerse y reportar modos de colapso específicos cuando encuentran paradojas o desvíos en el razonamiento, basándose en una única ley de estabilidad: K(σ) ⇒ K(β(σ)). El prompt es independiente del sustrato y funciona en modelos como Grok y Claude.

OpenClawRadar
El Método de Cuantización JANG Mejora el Rendimiento de MLX para Modelos Grandes
Herramientas

El Método de Cuantización JANG Mejora el Rendimiento de MLX para Modelos Grandes

Un nuevo método de cuantización llamado JANG permite ejecutar modelos grandes como MiniMax-M2.5 y Qwen 3.5 en el framework MLX de Apple con un rendimiento significativamente mejor que la cuantización estándar de MLX, logrando velocidades casi nativas mientras mantiene una precisión comparable a las cuantizaciones de mayor número de bits.

OpenClawRadar
Análisis de Precios de Modelos de OpenRouter e Inteligencia por Dólar
Herramientas

Análisis de Precios de Modelos de OpenRouter e Inteligencia por Dólar

Un usuario de Reddit recopiló los precios de la API de OpenRouter para 16 modelos de IA y calculó los valores de inteligencia por dólar, identificando a MiMo-V2-Flash como la mejor opción en cuanto a valor a $0.09/M de tokens y a GPT-5.4 como el más inteligente a $2.50/M de tokens.

OpenClawRadar
PocketTeam: Un Pipeline de Código Claude con Agentes de Seguridad y Aprendizaje Basados en Hooks
Herramientas

PocketTeam: Un Pipeline de Código Claude con Agentes de Seguridad y Aprendizaje Basados en Hooks

PocketTeam es una canalización de Claude Code que implementa 9 capas de seguridad a nivel de llamada de herramientas para bloquear operaciones peligrosas como escrituras en .env o comandos rm -rf. El sistema incluye un agente Observador que analiza las tareas completadas y escribe aprendizajes estructurados para mejorar el rendimiento futuro de los agentes.

OpenClawRadar