Le Qwen3.5-2B affiné avec l'architecture RAG-Engram améliore la précision des réponses ancrées de 50 % à 93 % dans un contexte de 8K.

✍️ OpenClawRadar📅 Publié: March 27, 2026🔗 Source
Le Qwen3.5-2B affiné avec l'architecture RAG-Engram améliore la précision des réponses ancrées de 50 % à 93 % dans un contexte de 8K.
Ad

Approche d'affinage pour améliorer les performances RAG

Un développeur a créé une version affinée de Qwen3.5-2B qui résout le phénomène de 'perte au milieu' et les hallucinations dans les petits modèles de langage lorsque les fenêtres de contexte sont saturées avec environ 8 000 tokens de données récupérées. L'architecture personnalisée, appelée RAG-Engram, a amélioré les réponses correctes à 8 000 tokens de 50 % à 93 % sur 14 requêtes du monde réel.

Détails de l'architecture

Le système RAG-Engram est un système à deux niveaux construit autour de l'architecture hybride Gated DeltaNet de Qwen3.5-2B :

  • Niveau 1 — Table Engram Statique : 135 000 embeddings d'entités pré-calculés (noms propres indiens, programmes gouvernementaux, phrases hindi, termes financiers) stockés dans la RAM du CPU. Cela libère l'attention du modèle de devoir reconstruire les entités connues.
  • Niveau 2 — Navigation Dynamique des Segments : Au moment de l'inférence, un extracteur spaCy léger (~15 Mo) scanne les segments récupérés, construit une carte de pointeurs indiquant où apparaissent les entités clés, et génère une matrice de biais d'attention. Celle-ci est ajoutée aux scores Q·K^T avant le softmax aux couches 3 et 15 (les couches d'attention complète dans l'architecture hybride — les 18 autres couches sont Gated DeltaNet qui n'ont pas d'attention softmax).

L'approche indique aux têtes d'attention où regarder au lieu de laisser le modèle scanner aveuglément 8 000 tokens en espérant trouver des réponses.

Ad

Spécifications de l'entraînement

  • Modèle de base : Qwen3.5-2B-Base
  • Méthode : LoRA (r=16, alpha=16) via Unsloth
  • Données : 2 168 exemples distillés de DeepSeek V3 sur MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K
  • Temps d'entraînement : 15 minutes sur Modal (GPU unique)
  • Perte Entraînement/Validation : 1,369 / 1,385 — pas de surapprentissage

L'affinage supervisé apprend au modèle à répondre dans un style conversationnel spécifique (markdown, mise en gras des informations clés, ancrage des sources), tandis que le biais Engram gère la navigation de l'attention dans les contextes longs.

Résultats de l'évaluation

L'évaluation a été réalisée par Claude Opus 4.6 en utilisant des segments de résultats de recherche Google complétés à 8 000 tokens :

  • Qwen3.5-2B standard : 50 % de réponses correctes à 8 000 tokens, 14 % d'échecs/refus
  • Drissy + RAG-Engram : 93 % de réponses correctes à 8 000 tokens, 0 % d'échecs/refus

La combinaison a complètement éliminé les échecs de 'perte au milieu'. Le développeur rapporte que l'ensemble du projet, de la spécification à HuggingFace, a pris environ 2 semaines et a coûté moins qu'un café.

Disponibilité du modèle

Le modèle affiné est disponible sous :

  • Modèle : drissea-ai/drissy-qwen3.5-2b
  • GGUF : drissea-ai/drissy-qwen3.5-2b-GGUF

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

TUI Studio : Outil de conception d'interface utilisateur terminal visuelle en version Alpha
Tools

TUI Studio : Outil de conception d'interface utilisateur terminal visuelle en version Alpha

TUI Studio est un éditeur visuel similaire à Figma pour concevoir des interfaces utilisateur de terminal avec des composants glisser-déposer, un aperçu ANSI en temps réel, et une exportation prévue vers six frameworks incluant Ink, BubbleTea et Textual. Actuellement en version alpha avec des exportations non fonctionnelles, il est disponible pour macOS, Windows et Docker.

OpenClawRadar
Atoo Studio : Espace de travail open source pour gérer des flux de travail Claude Code multi-projets
Tools

Atoo Studio : Espace de travail open source pour gérer des flux de travail Claude Code multi-projets

Atoo Studio est un espace de travail open-source conçu pour résoudre le chaos des terminaux et des onglets lors de l'utilisation de Claude Code sur plusieurs projets. Il introduit le forking de sessions comme les branches Git et permet la continuité entre Claude Code, Codex CLI et Gemini CLI.

OpenClawRadar
Airbyte Agents : Une couche de contexte pré-indexée pour les agents IA vs MCPs d'API brutes
Tools

Airbyte Agents : Une couche de contexte pré-indexée pour les agents IA vs MCPs d'API brutes

Airbyte lance Airbyte Agents, une couche de contexte qui pré-indexe les données des systèmes opérationnels (Slack, Salesforce, Linear, Zendesk, Gong) pour réduire la consommation de jetons des agents jusqu'à 90% par rapport aux MCPs des fournisseurs directs.

OpenClawRadar
OpenClaw met en œuvre la Compression de l'Historique des Agents pour réduire l'utilisation du contexte.
Tools

OpenClaw met en œuvre la Compression de l'Historique des Agents pour réduire l'utilisation du contexte.

OpenClaw compresse désormais l'historique des agents en remplaçant les journaux de sous-tâches terminées par des résumés structurés, réduisant environ 1 million de tokens à environ 30 000. Le système utilise un scanner à 4 passes pour identifier les cycles de vie des tâches et génère des résumés masqués qui maintiennent la compatibilité avec les agents.

OpenClawRadar