Qwen3.5-2B ajuste fino RAG-Engram: precisión 93% en 8K tokens

Enfoque de ajuste fino para mejorar el rendimiento de RAG

Un desarrollador ha creado una versión ajustada de Qwen3.5-2B que aborda el fenómeno de 'perdido en el medio' y las alucinaciones en modelos de lenguaje pequeños cuando las ventanas de contexto se saturan con aproximadamente 8K tokens de datos recuperados. La arquitectura personalizada, llamada RAG-Engram, mejoró las respuestas correctas en 8K tokens del 50% al 93% en 14 consultas del mundo real.

Detalles de la arquitectura

El sistema RAG-Engram es un sistema de dos niveles construido alrededor de la arquitectura híbrida Gated DeltaNet de Qwen3.5-2B:

Nivel 1 — Tabla Engram Estática: 135K incrustaciones de entidades precalculadas (nombres propios indios, esquemas gubernamentales, frases en hindi, términos financieros) almacenadas en la RAM de la CPU. Esto libera la atención del modelo de tener que reconstruir entidades conocidas.
Nivel 2 — Navegación Dinámica de Fragmentos: En tiempo de inferencia, un extractor ligero de spaCy (~15MB) escanea los fragmentos recuperados, construye un mapa de punteros de dónde aparecen las entidades clave y genera una matriz de sesgo de atención. Esto se añade a las puntuaciones Q·K^T antes de softmax en las capas 3 y 15 (las capas de atención completa en la arquitectura híbrida — las otras 18 capas son Gated DeltaNet que no tienen atención softmax).

El enfoque indica a las cabezas de atención dónde mirar en lugar de hacer que el modelo escanee ciegamente 8,000 tokens con la esperanza de encontrar respuestas.

Especificaciones de entrenamiento

Modelo base: Qwen3.5-2B-Base
Método: LoRA (r=16, alpha=16) vía Unsloth
Datos: 2,168 ejemplos destilados de DeepSeek V3 a través de MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K
Tiempo de entrenamiento: 15 minutos en Modal (una sola GPU)
Pérdida de Entrenamiento/Validación: 1.369 / 1.385 — sin sobreajuste

El ajuste fino supervisado enseña al modelo a responder en un estilo conversacional específico (markdown, ideas clave en negrita, fundamentación de fuentes), mientras que el sesgo Engram maneja la navegación de atención en contextos largos.

Resultados de evaluación

La evaluación fue realizada por Claude Opus 4.6 usando fragmentos de resultados de búsqueda de Google rellenados a 8K tokens:

Qwen3.5-2B Vanilla: 50% de respuestas correctas en 8K tokens, 14% de fallos/rechazos
Drissy + RAG-Engram: 93% de respuestas correctas en 8K tokens, 0% de fallos/rechazos

La combinación eliminó completamente los fallos de 'perdido en el medio'. El desarrollador informa que todo el proyecto, desde la especificación hasta HuggingFace, tomó unas 2 semanas y costó menos que un café.

Disponibilidad del modelo

El modelo ajustado está disponible como:

Modelo: drissea-ai/drissy-qwen3.5-2b
GGUF: drissea-ai/drissy-qwen3.5-2b-GGUF

📖 Read the full source: r/LocalLLaMA

El ajuste fino de Qwen3.5-2B con la arquitectura RAG-Engram mejora la precisión de respuestas fundamentadas del 50% al 93% en un contexto de 8K.

Enfoque de ajuste fino para mejorar el rendimiento de RAG

Detalles de la arquitectura

Especificaciones de entrenamiento

Resultados de evaluación

Disponibilidad del modelo

👀 Ver también

Cerebro Abierto: El servidor MCP de código abierto agrega memoria persistente con auto-grafo y búsqueda semántica a Claude

El Complemento Keyoku Reemplaza el Latido Estático de OpenClaw con Autonomía Impulsada por la Memoria

Fábrica de Agentes: Sistema Autónomo Construye Agentes de IA a partir de Discusiones de Problemas en Línea

Extensión de Claude para VS Code Deslizador de Esfuerzo de Razonamiento Envía Valores Inconsistentes