Qwen3.5-2B + RAG-Engram : Précision 93% sur 8K tokens

Approche d'affinage pour améliorer les performances RAG

Un développeur a créé une version affinée de Qwen3.5-2B qui résout le phénomène de 'perte au milieu' et les hallucinations dans les petits modèles de langage lorsque les fenêtres de contexte sont saturées avec environ 8 000 tokens de données récupérées. L'architecture personnalisée, appelée RAG-Engram, a amélioré les réponses correctes à 8 000 tokens de 50 % à 93 % sur 14 requêtes du monde réel.

Détails de l'architecture

Le système RAG-Engram est un système à deux niveaux construit autour de l'architecture hybride Gated DeltaNet de Qwen3.5-2B :

Niveau 1 — Table Engram Statique : 135 000 embeddings d'entités pré-calculés (noms propres indiens, programmes gouvernementaux, phrases hindi, termes financiers) stockés dans la RAM du CPU. Cela libère l'attention du modèle de devoir reconstruire les entités connues.
Niveau 2 — Navigation Dynamique des Segments : Au moment de l'inférence, un extracteur spaCy léger (~15 Mo) scanne les segments récupérés, construit une carte de pointeurs indiquant où apparaissent les entités clés, et génère une matrice de biais d'attention. Celle-ci est ajoutée aux scores Q·K^T avant le softmax aux couches 3 et 15 (les couches d'attention complète dans l'architecture hybride — les 18 autres couches sont Gated DeltaNet qui n'ont pas d'attention softmax).

L'approche indique aux têtes d'attention où regarder au lieu de laisser le modèle scanner aveuglément 8 000 tokens en espérant trouver des réponses.

Spécifications de l'entraînement

Modèle de base : Qwen3.5-2B-Base
Méthode : LoRA (r=16, alpha=16) via Unsloth
Données : 2 168 exemples distillés de DeepSeek V3 sur MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K
Temps d'entraînement : 15 minutes sur Modal (GPU unique)
Perte Entraînement/Validation : 1,369 / 1,385 — pas de surapprentissage

L'affinage supervisé apprend au modèle à répondre dans un style conversationnel spécifique (markdown, mise en gras des informations clés, ancrage des sources), tandis que le biais Engram gère la navigation de l'attention dans les contextes longs.

Résultats de l'évaluation

L'évaluation a été réalisée par Claude Opus 4.6 en utilisant des segments de résultats de recherche Google complétés à 8 000 tokens :

Qwen3.5-2B standard : 50 % de réponses correctes à 8 000 tokens, 14 % d'échecs/refus
Drissy + RAG-Engram : 93 % de réponses correctes à 8 000 tokens, 0 % d'échecs/refus

La combinaison a complètement éliminé les échecs de 'perte au milieu'. Le développeur rapporte que l'ensemble du projet, de la spécification à HuggingFace, a pris environ 2 semaines et a coûté moins qu'un café.