OpenRouter Modellpreise und Intelligenz-pro-Dollar-Analyse

Vergleich von Modellintelligenz und Preisen
Ein Entwickler analysierte die OpenRouter-API-Preise für 16 KI-Modelle und berechnete Intelligenz-pro-Dollar-Werte, um bei der Auswahl von Modellen für bestimmte Aufgaben zu helfen. Die Intelligenzmetrik kombiniert sieben Benchmarks: Artificial Analysis Intelligence Index, Agentic Index, Coding Index, Artificial Analysis Omnicience Index (auf 0–100 skaliert), GPDval-AA, Terminal-Bench Hard und t2-Bench Telecom.
Wichtige Erkenntnisse
Die Analyse identifizierte mehrere herausragende Modelle:
- Höchste Intelligenz: GPT-5.4 (58,8 Intelligenz, 2,50 $/M Token) und Gemini 3.1 Pro (58,6 Intelligenz, 2,00 $/M Token)
- Bester Wert: MiMo-V2-Flash (39,9 Intelligenz, 0,09 $/M Token, 443 Wertpunktzahl)
- Ausgewogene Modelle: GLM-5, Kimi K2.5 und Gemini 3 Flash
Modell-Details und Fähigkeiten
Der vollständige Datensatz umfasst:
- MiMo-V2-Flash: 39,9 Intelligenz, 0,09 $/M Token, 443 Wert, nur Text
- Step 3.5 Flash: 34,8 Intelligenz, 0,10 $/M Token, 348 Wert, allgemeine schnelle Textaufgaben
- Grok 4.1 Fast: 41,2 Intelligenz, 0,20 $/M Token, 205 Wert, 2M Kontextfenster, Hochgeschwindigkeits-Routing und -Extraktion
- MiniMax M2.5: 40,3 Intelligenz, 0,27 $/M Token, 149 Wert, Open-Source, hervorragende Leistung bei echten Programmieraufgaben
- DeepSeek V3.2: 34,6 Intelligenz, 0,25 $/M Token, 138 Wert, starke Programmier- und Logikfähigkeiten, unterstützt API-Cache-Treffer
- Kimi K2.5: 45,8 Intelligenz, 0,45 $/M Token, 101 Wert, 262K Kontextfenster, breites Allgemeinwissen
- Gemini 3 Flash: 47,7 Intelligenz, 0,50 $/M Token, 95 Wert, multimodal mit Audioeingabe-Unterstützung
- GLM-4.7: 31,6 Intelligenz, 0,38 $/M Token, 83 Wert, allgemeine Texterstellung
- Qwen 3.5: 41,1 Intelligenz, 0,60 $/M Token, 68 Wert, starke Gesamtleistung, allgemeiner Zweck
- GLM-5: 49,5 Intelligenz, 0,80 $/M Token, 61 Wert, 200K Kontextfenster, Allgemeinwissen
- Claude Haiku 4.5: 36,5 Intelligenz, 1,00 $/M Token, 36 Wert, schnell und günstig, erweiterte Denkunterstützung
- GPT-5.3: 55,9 Intelligenz, 1,75 $/M Token, 32 Wert, allgemeines Denken und Textverarbeitung
- GPT-5.2: 50,8 Intelligenz, 1,75 $/M Token, 29 Wert, ausgezeichnet für Programmierung + agentische Aufgaben
- Gemini 3.1 Pro: 58,6 Intelligenz, 2,00 $/M Token, 29 Wert, multimodale Analysen, Bildausgabe-Unterstützung
- Grok 4.2 Beta: 49,6 Intelligenz, 2,00 $/M Token, 25 Wert, schweres Denken, breite Wissensbasis
- GPT-5.4: 58,8 Intelligenz, 2,50 $/M Token, 24 Wert, variable Kontextstufen (<272K / >272K), erstklassiges Denken
- Claude Sonnet 4.6: 52,3 Intelligenz, 3,00 $/M Token, 17 Wert, Arbeitspferd-Modell, trainiert bis Januar 2026
- Claude Opus 4.6: 51,9 Intelligenz, 5,00 $/M Token, 10 Wert, erstklassiges Denken, stärkstes für Programmierung und Softwareentwicklung
Bemerkenswerte Einblicke
Die Analyse stellt fest, dass intelligentere Modelle typischerweise schlechtere Wertpunktzahlen haben, dies jedoch nicht die tatsächliche Effizienz widerspiegeln muss. Wenn beispielsweise Qwen 3.5 500.000 Token und 30 Minuten benötigt, um ein Problem falsch zu lösen, während Sonnet es korrekt in einem Zehntel der Zeit löst, könnte Sonnet trotz seiner niedrigeren Intelligenz-pro-Dollar-Punktzahl besserer Wert sein.
Grok 4.1s 2M-Kontextfenster verleiht ihm einen Intelligenzschub, der in den meisten Anwendungsfällen nicht auftritt. MiniMax 2.5 übertrifft es in allen Metriken außer dem Kontextfenster.
GLM-5 markiert das letzte Modell vor einem signifikanten Wertabfall (von 61 auf 36 bei Claude Haiku 4.5) und soll fast so schlau wie GPT-5.2 sein.
📖 Read the full source: r/openclaw
👀 Siehe auch

KI-Sandbox-Manager: LXC-basierte Sandbox für Codex mit GPU-Durchleitung und Computernutzung auf headless Linux
ai-sandbox-manager ist eine Open-Source-LXC-Sandbox für Codex-Agenten auf headless Linux. Sie bietet GPU-Durchleitung, vollständigen sudo-Zugriff, persistente Umgebungen und Computernutzung via CUA, während sie den Agenten vom Host-Betriebssystem isoliert.

OpenClaw Context Meter Plugin zeigt Telegram Token-Nutzungsprozentsatz an
Ein neues OpenClaw-Plugin zeigt den Token-Verbrauchsprozentsatz nach jeder Telegram-Bot-Antwort an, mit Werten wie '45k / 200k (22%)' und erkennt Komprimierungsereignisse. Das Plugin vermeidet OOM-Probleme, indem es Kontextfenster hartcodiert, anstatt execSync zu verwenden.

Bemerkung: Ein Markdown-Annotationstool für Claude-Code-Workflows
Remark ist eine native macOS-App, die Entwicklern ermöglicht, Markdown-Dateien inline für Claude Code-Review-Workflows zu kommentieren. Sie exportiert Anmerkungen als JSON für den Agenten und integriert sich über eine im .claude/skills/-Verzeichnis installierte Fähigkeit.

Erkennung stiller Werkzeugausfälle in KI-Codierungsagenten mit Vibeyard
Vibeyard ist ein Tool, das erkennt, wenn KI-Coding-Agenten stille Tool-Fehler erleben – Situationen, in denen Agenten auf alternative Strategien zurückgreifen, ohne Entwickler zu benachrichtigen – und diese Ineffizienzen während der Sitzungen sichtbar macht. Es kann Korrekturen vorschlagen, um wiederholte ineffiziente Arbeitsabläufe zu verhindern.