Das feinabgestimmte Qwen3.5-2B-Modell mit RAG-Engram-Architektur verbessert die Genauigkeit fundierter Antworten von 50 % auf 93 % bei einem Kontext von 8K.

✍️ OpenClawRadar📅 Veröffentlicht: 27. März 2026🔗 Source
Das feinabgestimmte Qwen3.5-2B-Modell mit RAG-Engram-Architektur verbessert die Genauigkeit fundierter Antworten von 50 % auf 93 % bei einem Kontext von 8K.
Ad

Feinabstimmungsansatz für verbesserte RAG-Leistung

Ein Entwickler hat eine feinabgestimmte Version von Qwen3.5-2B erstellt, die das 'Lost-in-the-Middle'-Phänomen und Halluzinationen in kleinen Sprachmodellen angeht, wenn Kontextfenster mit etwa 8K Token abgerufener Daten gesättigt sind. Die benutzerdefinierte Architektur namens RAG-Engram verbesserte korrekte Antworten bei 8K Token von 50 % auf 93 % über 14 reale Abfragen hinweg.

Architekturdetails

Das RAG-Engram-System ist ein zweistufiges System, das auf der hybriden Gated-DeltaNet-Architektur von Qwen3.5-2B aufbaut:

  • Stufe 1 — Statische Engram-Tabelle: 135K vorberechnete Entitäts-Einbettungen (indische Eigennamen, Regierungsprogramme, Hindi-Phrasen, Finanzbegriffe), die im CPU-RAM gespeichert sind. Dies entlastet die Aufmerksamkeit des Modells davon, bekannte Entitäten rekonstruieren zu müssen.
  • Stufe 2 — Dynamische Chunk-Navigation: Zur Inferenzzeit scannt ein leichtgewichtiger spaCy-Extraktor (~15 MB) abgerufene Chunks, erstellt eine Zeigerkarte, wo Schlüsselentitäten auftauchen, und erzeugt eine Aufmerksamkeits-Bias-Matrix. Diese wird zu den Q·K^T-Scores vor Softmax in den Schichten 3 und 15 hinzugefügt (die Vollaufmerksamkeitsschichten in der hybriden Architektur – die anderen 18 Schichten sind Gated DeltaNet, die keine Softmax-Aufmerksamkeit haben).

Der Ansatz sagt den Aufmerksamkeitsköpfen, wo sie suchen sollen, anstatt dass das Modell blind 8.000 Token durchsucht und hofft, Antworten zu finden.

Ad

Trainingsspezifikationen

  • Basismodell: Qwen3.5-2B-Base
  • Methode: LoRA (r=16, alpha=16) über Unsloth
  • Daten: 2.168 Beispiele, destilliert aus DeepSeek V3 über MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K
  • Trainingszeit: 15 Minuten auf Modal (einzelne GPU)
  • Trainings-/Validierungsverlust: 1,369 / 1,385 – kein Overfitting

Die überwachte Feinabstimmung lehrt das Modell, in einem bestimmten Konversationsstil zu antworten (Markdown, wichtige Erkenntnisse fett, Quellenverankerung), während der Engram-Bias die Aufmerksamkeitsnavigation in langen Kontexten handhabt.

Evaluierungsergebnisse

Die Evaluierung wurde von Claude Opus 4.6 unter Verwendung von Google-Suchergebnis-Chunks durchgeführt, die auf 8K Token aufgefüllt wurden:

  • Standard-Qwen3.5-2B: 50 % korrekte Antworten bei 8K Token, 14 % Fehler/Verweigerungen
  • Drissy + RAG-Engram: 93 % korrekte Antworten bei 8K Token, 0 % Fehler/Verweigerungen

Die Kombination eliminierte 'Lost-in-the-Middle'-Fehler vollständig. Der Entwickler berichtet, dass das gesamte Projekt von der Spezifikation bis zu HuggingFace etwa 2 Wochen dauerte und weniger als ein Kaffee kostete.

Modellverfügbarkeit

Das feinabgestimmte Modell ist verfügbar als:

  • Modell: drissea-ai/drissy-qwen3.5-2b
  • GGUF: drissea-ai/drissy-qwen3.5-2b-GGUF

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Aufbau und Test eines MCP-Servers in Claude Desktop: Architektur und Erkenntnisse
Werkzeuge

Aufbau und Test eines MCP-Servers in Claude Desktop: Architektur und Erkenntnisse

Ein Entwickler teilt seine Erfahrungen beim Aufbau und Testen eines MCP-Servers in Claude Desktop und erläutert seine Architektur sowie praktische Erkenntnisse zu Tool-Schemata, Debugging und Einschränkungen.

OpenClawRadar
ComfyUI-Fähigkeit ermöglicht KI-Agenten das Einreihen und Stapelrendern von Bildern über natürliche Sprache
Werkzeuge

ComfyUI-Fähigkeit ermöglicht KI-Agenten das Einreihen und Stapelrendern von Bildern über natürliche Sprache

Eine neue Open-Source-Fähigkeit ermöglicht es OpenClaw-Agenten, ComfyUI-Workflows zu erstellen, Aufträge zu übermitteln und Renderings über natürliche Sprachbefehle zu verwalten, wie zum Beispiel 'Erstelle 50 Variationen dieses Konzepts mit verschiedenen Seeds' oder 'Vergleiche diese 4 Prompts nebeneinander bei 1024x1024'.

OpenClawRadar
LAP: Über 1.500 API-Spezifikationen für die Nutzung durch LLMs zusammengestellt, um Halluzinationen bei Claude zu reduzieren
Werkzeuge

LAP: Über 1.500 API-Spezifikationen für die Nutzung durch LLMs zusammengestellt, um Halluzinationen bei Claude zu reduzieren

LAP ist ein Tool, das über 1.500 echte API-Spezifikationen in ein schlankes Format kompiliert, das für LLMs optimiert ist. Es bietet verifizierte Endpunkte und Parameter, um KI-Coding-Agenten wie Claude davon abzuhalten, falsche API-Aufrufe zu halluzinieren.

OpenClawRadar
Argyph: Ein einzelner MCP-Server für Claude Code mit 19 strukturierten Code-Verständnis-Werkzeugen
Werkzeuge

Argyph: Ein einzelner MCP-Server für Claude Code mit 19 strukturierten Code-Verständnis-Werkzeugen

Argyph ist ein lokaler MCP-Server, der Claude Code 19 Werkzeuge bereitstellt – Gehe-zu-Definition, Referenzen suchen, Aufrufgraphen, semantische Suche, token-budgetierte Repository-Packung – und damit mehrere separate MCP-Server durch eine einzige Installation ersetzt. Es ist kein API-Schlüssel erforderlich; die gesamte Verarbeitung bleibt auf Ihrem Rechner.

OpenClawRadar