Multi-Agent-Haiku-System: 15x Kostensenkung bei Top-Ergebnissen

Versuchsaufbau und Ergebnisse

Ein Reddit-Nutzer führte einen Vergleichstest zwischen zwei Claude-Modellkonfigurationen anhand eines anspruchsvollen zahlentheoretischen Problems durch. Das Problem erforderte den Beweis, dass für eine ungerade Primzahl p die Summe 1^(p-1) + 2^(p-1) + ... + (p-1)^(p-1) kongruent zu -1 (mod p) ist, unter Verwendung des kleinen Satzes von Fermat und Eigenschaften primitiver Wurzeln.

Zwei Konfigurationen wurden getestet:

Konfiguration X (Opus solo): Claude Opus 4.5 mit max_tokens: 2048, ohne Prüfer
Konfiguration Y (Haiku Multi-Agent): Haiku-Generator erstellt vollständigen Beweis, zweiter Haiku-Prüfer überprüft jeden Schritt, mit zwei Durchläufen falls der Prüfer etwas beanstandet, max_tokens: 1024 pro Aufruf

Bewertung und Leistung

Beide Konfigurationen erzielten 4/4 Punkte nach diesem Bewertungsschema:

Korrekte Anwendung des kleinen Satzes von Fermat
Korrekte Behandlung des Arguments mit primitiven Wurzeln
Gültige Summation über vollständiges Restsystem
Kongruenzschluss folgt korrekt

Der Haiku-Prüfer gab VERIFIZIERT ohne Beanstandungen zurück. Leistungskennzahlen:

Opus solo: ~8,7 Sekunden, Punktzahl 4/4
Haiku + Prüfer: ~10,9 Sekunden, Punktzahl 4/4

Kostenanalyse

Die wirtschaftlichen Auswirkungen sind bedeutend:

Opus solo: 0,075 US-Dollar/1000 Tokens × ~800 Tokens = ~0,06 US-Dollar pro Abfrage
Haiku + Haiku: 0,0025 US-Dollar/1000 Tokens × ~1600 Tokens = ~0,004 US-Dollar pro Abfrage

Dies entspricht etwa 15-mal niedrigeren Kosten für identische Ergebnisse bei diesem Problem. Das Problem wurde als "echt schwierig" beschrieben und nicht wie einfachere Beweise aus Trainingsdaten offensichtlich.

Die Quelle weist darauf hin, dass bei klaren Problemen, bei denen der kleine Satz von Fermat die Hauptarbeit leistet (jedes a^(p-1) ≡ 1, Summe (p-1) Einsen, ergibt p-1 ≡ -1), das Prüfermuster etwa 17 % Zeitaufwand hinzufügt, um die Korrektheit zu bestätigen. Das Muster ist besonders wertvoll für Probleme, bei denen der Generator mit Quantisierungsstockungen oder halluzinierter Algebra stolpern könnte.

📖 Quelle vollständig lesen: r/ClaudeAI

Multi-Agent-Haiku-System erreicht bei komplexen Zahlentheorie-Problemen Claude-Opus-Niveau bei 15-fach geringeren Kosten

Versuchsaufbau und Ergebnisse

Bewertung und Leistung

Kostenanalyse

👀 Siehe auch

Eqho: Lokale Sprach-zu-Text-App für Claude-Code-Sitzungen

Hollow AgentOS: Lokal betreiben von Claude-ähnlichen Agenten auf RTX 5070 mit Qwen 3.5 9B

Voxlert: Sprachbenachrichtigungen für Claude-Code-Sitzungen mit Charakterstimmen

jsongrep: Ein DFA-basiertes JSON-Abfragewerkzeug, das jq in Benchmarks übertrifft