Sub-7B Coding Agenten: 4 Fehlerpunkte und Fixes

Nachdem ein Reddit-Nutzer wochenlang echte Multi-Datei-Codierungsaufgaben mit kleinen lokalen Modellen (Sub-7B) und kleinen Cloud-Modellen auf kostenlosen Stufen durchgeführt hat, dokumentierte er konsistente Fehlerpunkte jenseits typischer Benchmark-Rauschens. Hier ist, was tatsächlich kaputt geht.

Markdown-Fences sind der häufigste Fehler

Selbst mit "output only raw code, no markdown formatting" im System-Prompt verpacken die meisten Modelle ihre Antworten in dreifache Backticks. Qwen3.5:9b und Gemma4:e4b folgen der Anweisung am konsequentesten, rutschen aber gelegentlich ab. Die Lösung ist nicht besserer Prompt – es ist das standardmäßige Entfernen von Fences in der Nachbearbeitung.

Strukturierte Ausgaben sind unter 7B unzuverlässig

Wenn Agenten JSON für Aufgabenlisten oder Aktionstypen benötigen, versagen kleine Modelle weit häufiger, als Benchmarks vermuten lassen. Benchmarks testen gültiges JSON; die reale Nutzung fügt komplexe mehrstufige Anweisungen mit Randfällen hinzu. Gemma4:e4b ist unter lokalen Modellen am zuverlässigsten; Qwen3.5:9B liegt knapp dahinter. Codellama hat Schwierigkeiten. In der Cloud ist Llama 3.3 70B auf Groq absolut zuverlässig. Praktische Problemumgehung: JSON validieren, einmal mit expliziter Anweisung wiederholen, dann auf einen permissiven Parser zurückfallen, der JSON aus Prosa extrahiert.

Modelle bearbeiten die falsche Datei

Gib einem kleinen Modell die Aufgabe, validateToken in verifyToken umzubenennen, mit einer Projektkarte ähnlicher Namen, und es benennt möglicherweise validateUser um oder ändert die falsche Datei vollständig. Das Modell behandelt die Projektkarte als Vorschläge, nicht als Einschränkungen. Behebung auf Orchestrierungsebene: Validieren, dass Dateipfade existieren und Funktionsnamen in den angegebenen Dateien enthalten sind. Fehler bei Nichtübereinstimmung ausgeben – kleine Modelle lügen selbstbewusst.

Klassifizierung von Fragen vs. Aktionen

Die Frage "Wie viele Zeilen hat utils.js?" sollte schreibgeschützt sein. Aber wenn der Ausführer nur einen Bearbeitungsmodus hat, wird er die Datei bearbeiten, um die Antwort zu enthalten. Die Lösung: Der Planer muss Anfragen vor der Ausführung in Aktionstypen klassifizieren. Schreibgeschützte Abfragen werden an einen separaten Codepfad weitergeleitet, der niemals die Festplatte berührt.

Was besser funktioniert als erwartet

Token-Budget-Erzwingung im Code: Zähle Token vor jedem Aufruf; kleine Modelle haben kein Konzept von Kontextlimits und werden nicht kurz sein, wenn man ihnen vertraut.
Pro-Datei-Isolierung: Das Senden einer Datei nach der anderen ist deutlich zuverlässiger als zwei – Modelle vermischen Korrekturen.
Syntheseartiges Gedächtnis: Speichere eine ein-Satz-Zusammenfassung dessen, was das Modell getan hat, nicht die vollständige Aufgabenliste. Funktioniert für Rückgängigmachung und ergänzende Anfragen.

Noch in der Findungsphase

Ob irgendein lokales Modell unter 7B für eine Agentenrolle geeignet ist – der Autor hat keines gefunden, das nicht bei strukturierten Ausgaben häufig genug versagt. Open-Source-Testumgebung unter github.com/razvannec für Beiträge.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA