El ajuste fino de Qwen3.5-2B con la arquitectura RAG-Engram mejora la precisión de respuestas fundamentadas del 50% al 93% en un contexto de 8K.

Enfoque de ajuste fino para mejorar el rendimiento de RAG
Un desarrollador ha creado una versión ajustada de Qwen3.5-2B que aborda el fenómeno de 'perdido en el medio' y las alucinaciones en modelos de lenguaje pequeños cuando las ventanas de contexto se saturan con aproximadamente 8K tokens de datos recuperados. La arquitectura personalizada, llamada RAG-Engram, mejoró las respuestas correctas en 8K tokens del 50% al 93% en 14 consultas del mundo real.
Detalles de la arquitectura
El sistema RAG-Engram es un sistema de dos niveles construido alrededor de la arquitectura híbrida Gated DeltaNet de Qwen3.5-2B:
- Nivel 1 — Tabla Engram Estática: 135K incrustaciones de entidades precalculadas (nombres propios indios, esquemas gubernamentales, frases en hindi, términos financieros) almacenadas en la RAM de la CPU. Esto libera la atención del modelo de tener que reconstruir entidades conocidas.
- Nivel 2 — Navegación Dinámica de Fragmentos: En tiempo de inferencia, un extractor ligero de spaCy (~15MB) escanea los fragmentos recuperados, construye un mapa de punteros de dónde aparecen las entidades clave y genera una matriz de sesgo de atención. Esto se añade a las puntuaciones Q·K^T antes de softmax en las capas 3 y 15 (las capas de atención completa en la arquitectura híbrida — las otras 18 capas son Gated DeltaNet que no tienen atención softmax).
El enfoque indica a las cabezas de atención dónde mirar en lugar de hacer que el modelo escanee ciegamente 8,000 tokens con la esperanza de encontrar respuestas.
Especificaciones de entrenamiento
- Modelo base: Qwen3.5-2B-Base
- Método: LoRA (r=16, alpha=16) vía Unsloth
- Datos: 2,168 ejemplos destilados de DeepSeek V3 a través de MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K
- Tiempo de entrenamiento: 15 minutos en Modal (una sola GPU)
- Pérdida de Entrenamiento/Validación: 1.369 / 1.385 — sin sobreajuste
El ajuste fino supervisado enseña al modelo a responder en un estilo conversacional específico (markdown, ideas clave en negrita, fundamentación de fuentes), mientras que el sesgo Engram maneja la navegación de atención en contextos largos.
Resultados de evaluación
La evaluación fue realizada por Claude Opus 4.6 usando fragmentos de resultados de búsqueda de Google rellenados a 8K tokens:
- Qwen3.5-2B Vanilla: 50% de respuestas correctas en 8K tokens, 14% de fallos/rechazos
- Drissy + RAG-Engram: 93% de respuestas correctas en 8K tokens, 0% de fallos/rechazos
La combinación eliminó completamente los fallos de 'perdido en el medio'. El desarrollador informa que todo el proyecto, desde la especificación hasta HuggingFace, tomó unas 2 semanas y costó menos que un café.
Disponibilidad del modelo
El modelo ajustado está disponible como:
- Modelo: drissea-ai/drissy-qwen3.5-2b
- GGUF: drissea-ai/drissy-qwen3.5-2b-GGUF
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Máquina Virtual Lógica: Un Sistema Basado en Prompts para Detener los Colapsos del Razonamiento en LLM
Un investigador ha desarrollado un prompt de Máquina Virtual Lógica (LVM) que obliga a los LLMs a detenerse y reportar modos de colapso específicos cuando encuentran paradojas o desvíos en el razonamiento, basándose en una única ley de estabilidad: K(σ) ⇒ K(β(σ)). El prompt es independiente del sustrato y funciona en modelos como Grok y Claude.

El Método de Cuantización JANG Mejora el Rendimiento de MLX para Modelos Grandes
Un nuevo método de cuantización llamado JANG permite ejecutar modelos grandes como MiniMax-M2.5 y Qwen 3.5 en el framework MLX de Apple con un rendimiento significativamente mejor que la cuantización estándar de MLX, logrando velocidades casi nativas mientras mantiene una precisión comparable a las cuantizaciones de mayor número de bits.

Análisis de Precios de Modelos de OpenRouter e Inteligencia por Dólar
Un usuario de Reddit recopiló los precios de la API de OpenRouter para 16 modelos de IA y calculó los valores de inteligencia por dólar, identificando a MiMo-V2-Flash como la mejor opción en cuanto a valor a $0.09/M de tokens y a GPT-5.4 como el más inteligente a $2.50/M de tokens.

PocketTeam: Un Pipeline de Código Claude con Agentes de Seguridad y Aprendizaje Basados en Hooks
PocketTeam es una canalización de Claude Code que implementa 9 capas de seguridad a nivel de llamada de herramientas para bloquear operaciones peligrosas como escrituras en .env o comandos rm -rf. El sistema incluye un agente Observador que analiza las tareas completadas y escribe aprendizajes estructurados para mejorar el rendimiento futuro de los agentes.