Das feinabgestimmte Qwen3.5-2B-Modell mit RAG-Engram-Architektur verbessert die Genauigkeit fundierter Antworten von 50 % auf 93 % bei einem Kontext von 8K.

Feinabstimmungsansatz für verbesserte RAG-Leistung
Ein Entwickler hat eine feinabgestimmte Version von Qwen3.5-2B erstellt, die das 'Lost-in-the-Middle'-Phänomen und Halluzinationen in kleinen Sprachmodellen angeht, wenn Kontextfenster mit etwa 8K Token abgerufener Daten gesättigt sind. Die benutzerdefinierte Architektur namens RAG-Engram verbesserte korrekte Antworten bei 8K Token von 50 % auf 93 % über 14 reale Abfragen hinweg.
Architekturdetails
Das RAG-Engram-System ist ein zweistufiges System, das auf der hybriden Gated-DeltaNet-Architektur von Qwen3.5-2B aufbaut:
- Stufe 1 — Statische Engram-Tabelle: 135K vorberechnete Entitäts-Einbettungen (indische Eigennamen, Regierungsprogramme, Hindi-Phrasen, Finanzbegriffe), die im CPU-RAM gespeichert sind. Dies entlastet die Aufmerksamkeit des Modells davon, bekannte Entitäten rekonstruieren zu müssen.
- Stufe 2 — Dynamische Chunk-Navigation: Zur Inferenzzeit scannt ein leichtgewichtiger spaCy-Extraktor (~15 MB) abgerufene Chunks, erstellt eine Zeigerkarte, wo Schlüsselentitäten auftauchen, und erzeugt eine Aufmerksamkeits-Bias-Matrix. Diese wird zu den Q·K^T-Scores vor Softmax in den Schichten 3 und 15 hinzugefügt (die Vollaufmerksamkeitsschichten in der hybriden Architektur – die anderen 18 Schichten sind Gated DeltaNet, die keine Softmax-Aufmerksamkeit haben).
Der Ansatz sagt den Aufmerksamkeitsköpfen, wo sie suchen sollen, anstatt dass das Modell blind 8.000 Token durchsucht und hofft, Antworten zu finden.
Trainingsspezifikationen
- Basismodell: Qwen3.5-2B-Base
- Methode: LoRA (r=16, alpha=16) über Unsloth
- Daten: 2.168 Beispiele, destilliert aus DeepSeek V3 über MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K
- Trainingszeit: 15 Minuten auf Modal (einzelne GPU)
- Trainings-/Validierungsverlust: 1,369 / 1,385 – kein Overfitting
Die überwachte Feinabstimmung lehrt das Modell, in einem bestimmten Konversationsstil zu antworten (Markdown, wichtige Erkenntnisse fett, Quellenverankerung), während der Engram-Bias die Aufmerksamkeitsnavigation in langen Kontexten handhabt.
Evaluierungsergebnisse
Die Evaluierung wurde von Claude Opus 4.6 unter Verwendung von Google-Suchergebnis-Chunks durchgeführt, die auf 8K Token aufgefüllt wurden:
- Standard-Qwen3.5-2B: 50 % korrekte Antworten bei 8K Token, 14 % Fehler/Verweigerungen
- Drissy + RAG-Engram: 93 % korrekte Antworten bei 8K Token, 0 % Fehler/Verweigerungen
Die Kombination eliminierte 'Lost-in-the-Middle'-Fehler vollständig. Der Entwickler berichtet, dass das gesamte Projekt von der Spezifikation bis zu HuggingFace etwa 2 Wochen dauerte und weniger als ein Kaffee kostete.
Modellverfügbarkeit
Das feinabgestimmte Modell ist verfügbar als:
- Modell: drissea-ai/drissy-qwen3.5-2b
- GGUF: drissea-ai/drissy-qwen3.5-2b-GGUF
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Aufbau und Test eines MCP-Servers in Claude Desktop: Architektur und Erkenntnisse
Ein Entwickler teilt seine Erfahrungen beim Aufbau und Testen eines MCP-Servers in Claude Desktop und erläutert seine Architektur sowie praktische Erkenntnisse zu Tool-Schemata, Debugging und Einschränkungen.

ComfyUI-Fähigkeit ermöglicht KI-Agenten das Einreihen und Stapelrendern von Bildern über natürliche Sprache
Eine neue Open-Source-Fähigkeit ermöglicht es OpenClaw-Agenten, ComfyUI-Workflows zu erstellen, Aufträge zu übermitteln und Renderings über natürliche Sprachbefehle zu verwalten, wie zum Beispiel 'Erstelle 50 Variationen dieses Konzepts mit verschiedenen Seeds' oder 'Vergleiche diese 4 Prompts nebeneinander bei 1024x1024'.

LAP: Über 1.500 API-Spezifikationen für die Nutzung durch LLMs zusammengestellt, um Halluzinationen bei Claude zu reduzieren
LAP ist ein Tool, das über 1.500 echte API-Spezifikationen in ein schlankes Format kompiliert, das für LLMs optimiert ist. Es bietet verifizierte Endpunkte und Parameter, um KI-Coding-Agenten wie Claude davon abzuhalten, falsche API-Aufrufe zu halluzinieren.

Argyph: Ein einzelner MCP-Server für Claude Code mit 19 strukturierten Code-Verständnis-Werkzeugen
Argyph ist ein lokaler MCP-Server, der Claude Code 19 Werkzeuge bereitstellt – Gehe-zu-Definition, Referenzen suchen, Aufrufgraphen, semantische Suche, token-budgetierte Repository-Packung – und damit mehrere separate MCP-Server durch eine einzige Installation ersetzt. Es ist kein API-Schlüssel erforderlich; die gesamte Verarbeitung bleibt auf Ihrem Rechner.