Qwen3.5-2B RAG Engram: Accuracy von 50% auf 93%

Feinabstimmungsansatz für verbesserte RAG-Leistung

Ein Entwickler hat eine feinabgestimmte Version von Qwen3.5-2B erstellt, die das 'Lost-in-the-Middle'-Phänomen und Halluzinationen in kleinen Sprachmodellen angeht, wenn Kontextfenster mit etwa 8K Token abgerufener Daten gesättigt sind. Die benutzerdefinierte Architektur namens RAG-Engram verbesserte korrekte Antworten bei 8K Token von 50 % auf 93 % über 14 reale Abfragen hinweg.

Architekturdetails

Das RAG-Engram-System ist ein zweistufiges System, das auf der hybriden Gated-DeltaNet-Architektur von Qwen3.5-2B aufbaut:

Stufe 1 — Statische Engram-Tabelle: 135K vorberechnete Entitäts-Einbettungen (indische Eigennamen, Regierungsprogramme, Hindi-Phrasen, Finanzbegriffe), die im CPU-RAM gespeichert sind. Dies entlastet die Aufmerksamkeit des Modells davon, bekannte Entitäten rekonstruieren zu müssen.
Stufe 2 — Dynamische Chunk-Navigation: Zur Inferenzzeit scannt ein leichtgewichtiger spaCy-Extraktor (~15 MB) abgerufene Chunks, erstellt eine Zeigerkarte, wo Schlüsselentitäten auftauchen, und erzeugt eine Aufmerksamkeits-Bias-Matrix. Diese wird zu den Q·K^T-Scores vor Softmax in den Schichten 3 und 15 hinzugefügt (die Vollaufmerksamkeitsschichten in der hybriden Architektur – die anderen 18 Schichten sind Gated DeltaNet, die keine Softmax-Aufmerksamkeit haben).

Der Ansatz sagt den Aufmerksamkeitsköpfen, wo sie suchen sollen, anstatt dass das Modell blind 8.000 Token durchsucht und hofft, Antworten zu finden.

Trainingsspezifikationen

Basismodell: Qwen3.5-2B-Base
Methode: LoRA (r=16, alpha=16) über Unsloth
Daten: 2.168 Beispiele, destilliert aus DeepSeek V3 über MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K
Trainingszeit: 15 Minuten auf Modal (einzelne GPU)
Trainings-/Validierungsverlust: 1,369 / 1,385 – kein Overfitting

Die überwachte Feinabstimmung lehrt das Modell, in einem bestimmten Konversationsstil zu antworten (Markdown, wichtige Erkenntnisse fett, Quellenverankerung), während der Engram-Bias die Aufmerksamkeitsnavigation in langen Kontexten handhabt.

Evaluierungsergebnisse

Die Evaluierung wurde von Claude Opus 4.6 unter Verwendung von Google-Suchergebnis-Chunks durchgeführt, die auf 8K Token aufgefüllt wurden:

Standard-Qwen3.5-2B: 50 % korrekte Antworten bei 8K Token, 14 % Fehler/Verweigerungen
Drissy + RAG-Engram: 93 % korrekte Antworten bei 8K Token, 0 % Fehler/Verweigerungen

Die Kombination eliminierte 'Lost-in-the-Middle'-Fehler vollständig. Der Entwickler berichtet, dass das gesamte Projekt von der Spezifikation bis zu HuggingFace etwa 2 Wochen dauerte und weniger als ein Kaffee kostete.

Modellverfügbarkeit

Das feinabgestimmte Modell ist verfügbar als:

Modell: drissea-ai/drissy-qwen3.5-2b
GGUF: drissea-ai/drissy-qwen3.5-2b-GGUF

📖 Read the full source: r/LocalLLaMA

Das feinabgestimmte Qwen3.5-2B-Modell mit RAG-Engram-Architektur verbessert die Genauigkeit fundierter Antworten von 50 % auf 93 % bei einem Kontext von 8K.

Feinabstimmungsansatz für verbesserte RAG-Leistung

Architekturdetails

Trainingsspezifikationen

Evaluierungsergebnisse

Modellverfügbarkeit

👀 Siehe auch

Claude AIs UltraThink-Funktion kehrt zurück mit praktischen Nutzungshinweisen

Lokale Deep-Research-Tools: GPT Researcher und Local Deep Research vorn, STORM- und LangChain-Projekte stagnieren

OpenClaw vs Hermes: Nach über 100 Deployments den richtigen selbstgehosteten KI-Agenten wählen

OpenClaw Superkräfte: Eine Bibliothek mit 31 Fähigkeiten zur Lösung von Problemen in den Bereichen Sicherheit, Kosten und Zuverlässigkeit