Open-Source-Local-Hook schaltet Claude-Modelle automatisch um, um KI-Kosten zu senken

Ein Entwickler hat einen lokalen Hook quelloffen gemacht, der automatisch das kosteneffizienteste Claude-KI-Modell basierend auf der Art der Programmieraufgabe auswählt, was KI-Kosten um 50-70% reduzieren kann, ohne Qualitätseinbußen.
So funktioniert es
Das Tool läuft als lokaler Hook in Cursor und Claude Code (beide nutzen dasselbe Hook-System) bevor jeder Prompt gesendet wird. Es sitzt neben Opus/Plan und fungiert als effizienter Frontend-Filter, der offensichtlich schlechte Modellzuordnungen verhindert, bevor sie teure Modelle erreichen.
Wesentliche Funktionen
- Liest den Prompt und die aktuelle Modellauswahl
- Verwendet einfache Schlüsselwortregeln zur Aufgabenklassifizierung (Git-Operationen, Feature-Arbeit, Architektur/tiefgehende Analyse)
- Blockiert bei Überzahlung (z.B. Opus für Git-Commit) und schlägt Haiku oder Sonnet vor
- Blockiert bei Unterdimensionierung (Sonnet/Haiku für Architektur) und schlägt Opus vor
- Lässt alles andere unverändert durch
- !-Präfix umgeht den Filter vollständig bei Unstimmigkeiten mit dessen Vorschlag
Technische Details
- 3 Dateien: Bash + Python3 + JSON
- Kein Proxy, keine API-Aufrufe, keine externen Dienste
- Fail-Open-Design: bei Hängern läuft Claude Code normal weiter
- Quelloffen verfügbar unter: https://github.com/coyvalyss1/model-matchmaker
Leistung und Tests
Der Entwickler analysierte mehrere Wochen eigener Prompts und fand:
- 60-70% waren Standard-Feature-Arbeit, die Sonnet bewältigen konnte
- 5-20% waren Debugging/Fehlerbehebung
- Ein signifikanter Anteil waren reine Git/Umbenennungs/Formatierungsaufgaben, die Haiku identisch bei 90% geringeren Kosten bewältigt
Retrospektive Analysen zeigten, dass das Tool 50-70% der KI-Ausgaben ohne Qualitätsverlust reduziert hätte. Nach Feinabstimmung bewältigte es 12/12 echte Test-Prompts korrekt.
Gelöstes Problem
Das Problem ist nicht Wissen – Entwickler wissen, dass sie Modelle wechseln sollten – sondern Reibung. Im Flow-Zustand möchten Entwickler nicht über Dropdown-Menüs nachdenken. Dieses Tool automatisiert den Entscheidungsprozess.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

FOMOE ermöglicht die Inferenz des 397B Qwen3.5-Modells auf Desktop-Hardware für 2.100 US-Dollar
FOMOE (Fast Opportunistic Mixture of Experts) ermöglicht es, Qwen3.5s Flaggschiffmodell mit 397 Milliarden Parametern mit einer Geschwindigkeit von 5-9 Tokens/Sekunde auf Consumer-Hardware zu betreiben, und zwar mit zwei 500-Dollar-GPUs, 32 GB RAM und einem NVMe-Laufwerk unter Verwendung von Q4_K_M-Quantisierung.

OpenClaw auf einem VPS mit einem Ein-Befehl-CLI bereitstellen.
Ein Reddit-Nutzer behauptet, eine CLI entwickelt zu haben, die OpenClaw mit einem einzigen Befehl auf einem VPS für 4,99 $/Monat bereitstellt und eine kostengünstige Alternative zu Mac Minis bietet.

OpenClaw Agent Memory Plugin: Persistenter Kontext über Sitzungen hinweg
Ein Entwickler hat ein Memory-Layer-Plugin für OpenClaw erstellt, das vor jedem Zug relevanten Kontext aus vergangenen Gesprächen einspielt und nach jedem Zug neue Fakten und Ereignisse speichert, wodurch das Problem gelöst wird, dass Agenten zwischen Sitzungen alles vergessen.

Patina: Eine Claude-Code-Fähigkeit, die KI-Schreibmuster erkennt und umschreibt
Ein Entwickler hat eine Claude Code-Fähigkeit namens Patina erstellt, die 112 Muster identifiziert, die KI-generierten Text in vier Sprachen offensichtlich machen, und dann markierte Abschnitte umschreibt. Das Tool umfasst Modi für reine Erkennung, Bewertung und iteratives Umschreiben.