OpenRouter Preise: MiMo-V2-Flash vs GPT-5.4

Vergleich von Modellintelligenz und Preisen

Ein Entwickler analysierte die OpenRouter-API-Preise für 16 KI-Modelle und berechnete Intelligenz-pro-Dollar-Werte, um bei der Auswahl von Modellen für bestimmte Aufgaben zu helfen. Die Intelligenzmetrik kombiniert sieben Benchmarks: Artificial Analysis Intelligence Index, Agentic Index, Coding Index, Artificial Analysis Omnicience Index (auf 0–100 skaliert), GPDval-AA, Terminal-Bench Hard und t2-Bench Telecom.

Wichtige Erkenntnisse

Die Analyse identifizierte mehrere herausragende Modelle:

Höchste Intelligenz: GPT-5.4 (58,8 Intelligenz, 2,50 $/M Token) und Gemini 3.1 Pro (58,6 Intelligenz, 2,00 $/M Token)
Bester Wert: MiMo-V2-Flash (39,9 Intelligenz, 0,09 $/M Token, 443 Wertpunktzahl)
Ausgewogene Modelle: GLM-5, Kimi K2.5 und Gemini 3 Flash

Modell-Details und Fähigkeiten

Der vollständige Datensatz umfasst:

MiMo-V2-Flash: 39,9 Intelligenz, 0,09 $/M Token, 443 Wert, nur Text
Step 3.5 Flash: 34,8 Intelligenz, 0,10 $/M Token, 348 Wert, allgemeine schnelle Textaufgaben
Grok 4.1 Fast: 41,2 Intelligenz, 0,20 $/M Token, 205 Wert, 2M Kontextfenster, Hochgeschwindigkeits-Routing und -Extraktion
MiniMax M2.5: 40,3 Intelligenz, 0,27 $/M Token, 149 Wert, Open-Source, hervorragende Leistung bei echten Programmieraufgaben
DeepSeek V3.2: 34,6 Intelligenz, 0,25 $/M Token, 138 Wert, starke Programmier- und Logikfähigkeiten, unterstützt API-Cache-Treffer
Kimi K2.5: 45,8 Intelligenz, 0,45 $/M Token, 101 Wert, 262K Kontextfenster, breites Allgemeinwissen
Gemini 3 Flash: 47,7 Intelligenz, 0,50 $/M Token, 95 Wert, multimodal mit Audioeingabe-Unterstützung
GLM-4.7: 31,6 Intelligenz, 0,38 $/M Token, 83 Wert, allgemeine Texterstellung
Qwen 3.5: 41,1 Intelligenz, 0,60 $/M Token, 68 Wert, starke Gesamtleistung, allgemeiner Zweck
GLM-5: 49,5 Intelligenz, 0,80 $/M Token, 61 Wert, 200K Kontextfenster, Allgemeinwissen
Claude Haiku 4.5: 36,5 Intelligenz, 1,00 $/M Token, 36 Wert, schnell und günstig, erweiterte Denkunterstützung
GPT-5.3: 55,9 Intelligenz, 1,75 $/M Token, 32 Wert, allgemeines Denken und Textverarbeitung
GPT-5.2: 50,8 Intelligenz, 1,75 $/M Token, 29 Wert, ausgezeichnet für Programmierung + agentische Aufgaben
Gemini 3.1 Pro: 58,6 Intelligenz, 2,00 $/M Token, 29 Wert, multimodale Analysen, Bildausgabe-Unterstützung
Grok 4.2 Beta: 49,6 Intelligenz, 2,00 $/M Token, 25 Wert, schweres Denken, breite Wissensbasis
GPT-5.4: 58,8 Intelligenz, 2,50 $/M Token, 24 Wert, variable Kontextstufen (<272K / >272K), erstklassiges Denken
Claude Sonnet 4.6: 52,3 Intelligenz, 3,00 $/M Token, 17 Wert, Arbeitspferd-Modell, trainiert bis Januar 2026
Claude Opus 4.6: 51,9 Intelligenz, 5,00 $/M Token, 10 Wert, erstklassiges Denken, stärkstes für Programmierung und Softwareentwicklung

Bemerkenswerte Einblicke

Die Analyse stellt fest, dass intelligentere Modelle typischerweise schlechtere Wertpunktzahlen haben, dies jedoch nicht die tatsächliche Effizienz widerspiegeln muss. Wenn beispielsweise Qwen 3.5 500.000 Token und 30 Minuten benötigt, um ein Problem falsch zu lösen, während Sonnet es korrekt in einem Zehntel der Zeit löst, könnte Sonnet trotz seiner niedrigeren Intelligenz-pro-Dollar-Punktzahl besserer Wert sein.

Grok 4.1s 2M-Kontextfenster verleiht ihm einen Intelligenzschub, der in den meisten Anwendungsfällen nicht auftritt. MiniMax 2.5 übertrifft es in allen Metriken außer dem Kontextfenster.

GLM-5 markiert das letzte Modell vor einem signifikanten Wertabfall (von 61 auf 36 bei Claude Haiku 4.5) und soll fast so schlau wie GPT-5.2 sein.

📖 Read the full source: r/openclaw