Was bricht, wenn man Codierungsagenten auf kleinen lokalen Modellen ausführt

Nachdem ein Reddit-Nutzer wochenlang echte Multi-Datei-Codierungsaufgaben mit kleinen lokalen Modellen (Sub-7B) und kleinen Cloud-Modellen auf kostenlosen Stufen durchgeführt hat, dokumentierte er konsistente Fehlerpunkte jenseits typischer Benchmark-Rauschens. Hier ist, was tatsächlich kaputt geht.
Markdown-Fences sind der häufigste Fehler
Selbst mit "output only raw code, no markdown formatting" im System-Prompt verpacken die meisten Modelle ihre Antworten in dreifache Backticks. Qwen3.5:9b und Gemma4:e4b folgen der Anweisung am konsequentesten, rutschen aber gelegentlich ab. Die Lösung ist nicht besserer Prompt – es ist das standardmäßige Entfernen von Fences in der Nachbearbeitung.
Strukturierte Ausgaben sind unter 7B unzuverlässig
Wenn Agenten JSON für Aufgabenlisten oder Aktionstypen benötigen, versagen kleine Modelle weit häufiger, als Benchmarks vermuten lassen. Benchmarks testen gültiges JSON; die reale Nutzung fügt komplexe mehrstufige Anweisungen mit Randfällen hinzu. Gemma4:e4b ist unter lokalen Modellen am zuverlässigsten; Qwen3.5:9B liegt knapp dahinter. Codellama hat Schwierigkeiten. In der Cloud ist Llama 3.3 70B auf Groq absolut zuverlässig. Praktische Problemumgehung: JSON validieren, einmal mit expliziter Anweisung wiederholen, dann auf einen permissiven Parser zurückfallen, der JSON aus Prosa extrahiert.
Modelle bearbeiten die falsche Datei
Gib einem kleinen Modell die Aufgabe, validateToken in verifyToken umzubenennen, mit einer Projektkarte ähnlicher Namen, und es benennt möglicherweise validateUser um oder ändert die falsche Datei vollständig. Das Modell behandelt die Projektkarte als Vorschläge, nicht als Einschränkungen. Behebung auf Orchestrierungsebene: Validieren, dass Dateipfade existieren und Funktionsnamen in den angegebenen Dateien enthalten sind. Fehler bei Nichtübereinstimmung ausgeben – kleine Modelle lügen selbstbewusst.
Klassifizierung von Fragen vs. Aktionen
Die Frage "Wie viele Zeilen hat utils.js?" sollte schreibgeschützt sein. Aber wenn der Ausführer nur einen Bearbeitungsmodus hat, wird er die Datei bearbeiten, um die Antwort zu enthalten. Die Lösung: Der Planer muss Anfragen vor der Ausführung in Aktionstypen klassifizieren. Schreibgeschützte Abfragen werden an einen separaten Codepfad weitergeleitet, der niemals die Festplatte berührt.
Was besser funktioniert als erwartet
- Token-Budget-Erzwingung im Code: Zähle Token vor jedem Aufruf; kleine Modelle haben kein Konzept von Kontextlimits und werden nicht kurz sein, wenn man ihnen vertraut.
- Pro-Datei-Isolierung: Das Senden einer Datei nach der anderen ist deutlich zuverlässiger als zwei – Modelle vermischen Korrekturen.
- Syntheseartiges Gedächtnis: Speichere eine ein-Satz-Zusammenfassung dessen, was das Modell getan hat, nicht die vollständige Aufgabenliste. Funktioniert für Rückgängigmachung und ergänzende Anfragen.
Noch in der Findungsphase
Ob irgendein lokales Modell unter 7B für eine Agentenrolle geeignet ist – der Autor hat keines gefunden, das nicht bei strukturierten Ausgaben häufig genug versagt. Open-Source-Testumgebung unter github.com/razvannec für Beiträge.
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

一汁一菜:AI疲れのための日本料理の原則
Takuya wendet das japanische Kochprinzip 'Ichiju Issai' an, um der KI-Erschöpfung entgegenzuwirken – vereinfachen Sie Ihren Tech-Stack auf ein Hauptwerkzeug und ein Nebenwerkzeug, genau wie eine Mahlzeit aus Reis, Suppe und einem Gericht.

OpenClaw 4.1 mit Gemma 4 Stack: Hybride Architektur und Setup-Korrekturen
Ein Reddit-Beitrag beschreibt einen optimierten lokalen Agenten-Stack, der OpenClaw 4.1 mit Googles Gemma-4-Modell kombiniert und eine hybride Architektur, spezifische Konfigurationskorrekturen für Ollama-Tool-Calling sowie Anpassungen des Kontextfensters umfasst.

OpenClaw-Fehlermuster: 42 reale Vorfälle in 28 Tagen
Ein Entwickler, der OpenClaw täglich nutzt, dokumentierte 42 spezifische Fehler in acht Kategorien, darunter KI-Halluzinationen, Authentifizierungsprobleme und Automatisierung, die mehr Zeit kostet als sie spart. Die Quelle liefert konkrete Beispiele wie die 7-tägige Ablaufzeit von Google OAuth-Tokens und Opus 4.6, das unerwünschte Metadaten zu Dateien hinzufügt.

Anleitung: GitHub Copilot mit lokalem LLM unter Windows über Lemonade Server ausführen
Ein Entwickler hat eine Anleitung erstellt, um GitHub Copilot für die Verwendung eines lokalen großen Sprachmodells (LLM) auf einem Framework Desktop unter Windows einzurichten, da es keine einfachen Anweisungen für diese Konfiguration gab.