Multi-Agent-Haiku-System erreicht bei komplexen Zahlentheorie-Problemen Claude-Opus-Niveau bei 15-fach geringeren Kosten

Versuchsaufbau und Ergebnisse
Ein Reddit-Nutzer führte einen Vergleichstest zwischen zwei Claude-Modellkonfigurationen anhand eines anspruchsvollen zahlentheoretischen Problems durch. Das Problem erforderte den Beweis, dass für eine ungerade Primzahl p die Summe 1^(p-1) + 2^(p-1) + ... + (p-1)^(p-1) kongruent zu -1 (mod p) ist, unter Verwendung des kleinen Satzes von Fermat und Eigenschaften primitiver Wurzeln.
Zwei Konfigurationen wurden getestet:
- Konfiguration X (Opus solo): Claude Opus 4.5 mit max_tokens: 2048, ohne Prüfer
- Konfiguration Y (Haiku Multi-Agent): Haiku-Generator erstellt vollständigen Beweis, zweiter Haiku-Prüfer überprüft jeden Schritt, mit zwei Durchläufen falls der Prüfer etwas beanstandet, max_tokens: 1024 pro Aufruf
Bewertung und Leistung
Beide Konfigurationen erzielten 4/4 Punkte nach diesem Bewertungsschema:
- Korrekte Anwendung des kleinen Satzes von Fermat
- Korrekte Behandlung des Arguments mit primitiven Wurzeln
- Gültige Summation über vollständiges Restsystem
- Kongruenzschluss folgt korrekt
Der Haiku-Prüfer gab VERIFIZIERT ohne Beanstandungen zurück. Leistungskennzahlen:
- Opus solo: ~8,7 Sekunden, Punktzahl 4/4
- Haiku + Prüfer: ~10,9 Sekunden, Punktzahl 4/4
Kostenanalyse
Die wirtschaftlichen Auswirkungen sind bedeutend:
- Opus solo: 0,075 US-Dollar/1000 Tokens × ~800 Tokens = ~0,06 US-Dollar pro Abfrage
- Haiku + Haiku: 0,0025 US-Dollar/1000 Tokens × ~1600 Tokens = ~0,004 US-Dollar pro Abfrage
Dies entspricht etwa 15-mal niedrigeren Kosten für identische Ergebnisse bei diesem Problem. Das Problem wurde als "echt schwierig" beschrieben und nicht wie einfachere Beweise aus Trainingsdaten offensichtlich.
Die Quelle weist darauf hin, dass bei klaren Problemen, bei denen der kleine Satz von Fermat die Hauptarbeit leistet (jedes a^(p-1) ≡ 1, Summe (p-1) Einsen, ergibt p-1 ≡ -1), das Prüfermuster etwa 17 % Zeitaufwand hinzufügt, um die Korrektheit zu bestätigen. Das Muster ist besonders wertvoll für Probleme, bei denen der Generator mit Quantisierungsstockungen oder halluzinierter Algebra stolpern könnte.
📖 Quelle vollständig lesen: r/ClaudeAI
👀 Siehe auch

Eqho: Lokale Sprach-zu-Text-App für Claude-Code-Sitzungen
Eqho ist eine kostenlose, quelloffene Sprach-zu-Text-App, die OpenAIs Whisper-Modell lokal nutzt, um gesprochene Eingaben in jede fokussierte Anwendung einzutippen. Derzeit nur für Windows verfügbar, mit erforderlicher Kommandozeilen-Einrichtung.

Hollow AgentOS: Lokal betreiben von Claude-ähnlichen Agenten auf RTX 5070 mit Qwen 3.5 9B
Ein selbstmodifizierendes Agentensystem, das Qwen 3.5 9B auf lokaler Hardware ausführt, senkt die Claude-API-Kosten um 50%. Es nutzt eine iterative Test- und Selbstverbesserungsschleife, um Software ohne menschliches Eingreifen zu entwickeln.

Voxlert: Sprachbenachrichtigungen für Claude-Code-Sitzungen mit Charakterstimmen
Voxlert ist ein Tool, das sich in Claude Code-Ereignisse einklinkt und Benachrichtigungen mit markanten Charakterstimmen wie der StarCraft Adjutant, SHODAN, GLaDOS und dem HEV-Anzug spricht. Es nutzt ein LLM über OpenRouter, um in-Charakter-Zeilen zu generieren, und läuft lokal nach der npm-Installation.

jsongrep: Ein DFA-basiertes JSON-Abfragewerkzeug, das jq in Benchmarks übertrifft
jsongrep ist ein Rust-basiertes Kommandozeilen-Tool zum Abfragen von JSON-Dokumenten mithilfe einer regulären Sprachsyntax, die in deterministische endliche Automaten (DFA) kompiliert wird und in Benchmarks schnellere Suchzeiten als jq, jmespath, jsonpath-rust und jql erreicht.