OpenRouter Modellpreise und Intelligenz-pro-Dollar-Analyse

Vergleich von Modellintelligenz und Preisen
Ein Entwickler analysierte die OpenRouter-API-Preise für 16 KI-Modelle und berechnete Intelligenz-pro-Dollar-Werte, um bei der Auswahl von Modellen für bestimmte Aufgaben zu helfen. Die Intelligenzmetrik kombiniert sieben Benchmarks: Artificial Analysis Intelligence Index, Agentic Index, Coding Index, Artificial Analysis Omnicience Index (auf 0–100 skaliert), GPDval-AA, Terminal-Bench Hard und t2-Bench Telecom.
Wichtige Erkenntnisse
Die Analyse identifizierte mehrere herausragende Modelle:
- Höchste Intelligenz: GPT-5.4 (58,8 Intelligenz, 2,50 $/M Token) und Gemini 3.1 Pro (58,6 Intelligenz, 2,00 $/M Token)
- Bester Wert: MiMo-V2-Flash (39,9 Intelligenz, 0,09 $/M Token, 443 Wertpunktzahl)
- Ausgewogene Modelle: GLM-5, Kimi K2.5 und Gemini 3 Flash
Modell-Details und Fähigkeiten
Der vollständige Datensatz umfasst:
- MiMo-V2-Flash: 39,9 Intelligenz, 0,09 $/M Token, 443 Wert, nur Text
- Step 3.5 Flash: 34,8 Intelligenz, 0,10 $/M Token, 348 Wert, allgemeine schnelle Textaufgaben
- Grok 4.1 Fast: 41,2 Intelligenz, 0,20 $/M Token, 205 Wert, 2M Kontextfenster, Hochgeschwindigkeits-Routing und -Extraktion
- MiniMax M2.5: 40,3 Intelligenz, 0,27 $/M Token, 149 Wert, Open-Source, hervorragende Leistung bei echten Programmieraufgaben
- DeepSeek V3.2: 34,6 Intelligenz, 0,25 $/M Token, 138 Wert, starke Programmier- und Logikfähigkeiten, unterstützt API-Cache-Treffer
- Kimi K2.5: 45,8 Intelligenz, 0,45 $/M Token, 101 Wert, 262K Kontextfenster, breites Allgemeinwissen
- Gemini 3 Flash: 47,7 Intelligenz, 0,50 $/M Token, 95 Wert, multimodal mit Audioeingabe-Unterstützung
- GLM-4.7: 31,6 Intelligenz, 0,38 $/M Token, 83 Wert, allgemeine Texterstellung
- Qwen 3.5: 41,1 Intelligenz, 0,60 $/M Token, 68 Wert, starke Gesamtleistung, allgemeiner Zweck
- GLM-5: 49,5 Intelligenz, 0,80 $/M Token, 61 Wert, 200K Kontextfenster, Allgemeinwissen
- Claude Haiku 4.5: 36,5 Intelligenz, 1,00 $/M Token, 36 Wert, schnell und günstig, erweiterte Denkunterstützung
- GPT-5.3: 55,9 Intelligenz, 1,75 $/M Token, 32 Wert, allgemeines Denken und Textverarbeitung
- GPT-5.2: 50,8 Intelligenz, 1,75 $/M Token, 29 Wert, ausgezeichnet für Programmierung + agentische Aufgaben
- Gemini 3.1 Pro: 58,6 Intelligenz, 2,00 $/M Token, 29 Wert, multimodale Analysen, Bildausgabe-Unterstützung
- Grok 4.2 Beta: 49,6 Intelligenz, 2,00 $/M Token, 25 Wert, schweres Denken, breite Wissensbasis
- GPT-5.4: 58,8 Intelligenz, 2,50 $/M Token, 24 Wert, variable Kontextstufen (<272K / >272K), erstklassiges Denken
- Claude Sonnet 4.6: 52,3 Intelligenz, 3,00 $/M Token, 17 Wert, Arbeitspferd-Modell, trainiert bis Januar 2026
- Claude Opus 4.6: 51,9 Intelligenz, 5,00 $/M Token, 10 Wert, erstklassiges Denken, stärkstes für Programmierung und Softwareentwicklung
Bemerkenswerte Einblicke
Die Analyse stellt fest, dass intelligentere Modelle typischerweise schlechtere Wertpunktzahlen haben, dies jedoch nicht die tatsächliche Effizienz widerspiegeln muss. Wenn beispielsweise Qwen 3.5 500.000 Token und 30 Minuten benötigt, um ein Problem falsch zu lösen, während Sonnet es korrekt in einem Zehntel der Zeit löst, könnte Sonnet trotz seiner niedrigeren Intelligenz-pro-Dollar-Punktzahl besserer Wert sein.
Grok 4.1s 2M-Kontextfenster verleiht ihm einen Intelligenzschub, der in den meisten Anwendungsfällen nicht auftritt. MiniMax 2.5 übertrifft es in allen Metriken außer dem Kontextfenster.
GLM-5 markiert das letzte Modell vor einem signifikanten Wertabfall (von 61 auf 36 bei Claude Haiku 4.5) und soll fast so schlau wie GPT-5.2 sein.
📖 Read the full source: r/openclaw
👀 Siehe auch

Ein Muster zum Ausführen von Claude Code in unbeaufsichtigten Nachtsitzungen ohne Kursabweichung
Ein Drei-Komponenten-Framework – Chain Runner, Supervisor und ein einziger Übergabevertrag – löst das Problem der Drift in Feedback-Schleifen bei mehrstündigen autonomen Claude Code-Sitzungen.

RunAnywhere RCLI: On-Device Voice AI-Pipeline für Apple Silicon
RunAnywhere hat RCLI veröffentlicht, eine Open-Source-Sprach-KI-Pipeline für macOS, die STT, LLM und TTS vollständig auf Apple Silicon Geräten ausführt. Das Tool nutzt ihre proprietäre MetalRT-Inferenz-Engine und verspricht deutliche Leistungsverbesserungen gegenüber bestehenden Lösungen.

MatchKit: Design-System-Generator für Claude Code-Projekte
MatchKit ist ein Tool, das komplette, markenspezifische Designsysteme für Projekte generiert, die mit Claude Code erstellt wurden. Es extrahiert Markenfarben aus hochgeladenen Logos und erstellt anpassbare Komponenten, Layouts und Design-Tokens, um den generischen Look zu vermeiden, der bei KI-Codierungstools häufig auftritt.

Flotilla v0.5.0 überarbeitet die Hintergrundausführung, um die Kreditlimits des Claude SDK zu umgehen
Flotilla v0.5.0 ersetzt die sequenzielle Agentenausführung durch nicht-blockierende parallele Schleifen, 30-minütige Zeitlimits pro Agent und lokale Delegierung, um SDK-Guthaben zu sparen.