Benchmarking der neuesten KI-Modelle: Der Aufstieg der extremen Modelle

✍️ OpenClawRadar📅 Veröffentlicht: 13. Februar 2026🔗 Source
Benchmarking der neuesten KI-Modelle: Der Aufstieg der extremen Modelle
Ad

Die jüngste Bewertung von 40 neuen KI-Modellen bringt bedeutende Verschiebungen im Preis-Leistungs-Verhältnis ans Licht. Mit einem Fokus auf Kimi k2.5 und Claude Opus 4.6 zeigt die Analyse eine Teilung in zwei Extreme: 'God Mode' und 'Flash Mode', wodurch Mittelklasse-Modelle ineffektiv werden.

Ad

Wichtige Details

  • Kimi k2.5 Situation: Versuche, Kimi k2.5 zu bewerten, schlugen fehl aufgrund anhaltender 'No Content'-Fehler, vermutlich bedingt durch Überlastung. Dennoch schnitt Kimi-k2-Thinking für komplexe Denkaufgaben mit ~15 TPS angemessen ab.
  • Geschwindigkeitsdominanz: Für latenzempfindliche Anwendungen erwies sich Liquid LFM 2.5 als das schnellste Modell mit ~359 Tokens/Sekunde, gefolgt von Ministral 3B mit ~293 Tokens/Sekunde.
  • Kosteneffizienz: Ministral 3B hebt sich als die kosteneffektivste Lösung hervor, mit $0.10/1M Eingab tokens. Es ist ~17x günstiger und ~40% schneller als GPT-5.2 Codex, was es zu einer starken Wahl gegen höherpreisige Optionen macht.

Die Empfehlung lautet, Mittelklasse-Modelle, die zwischen $0.50 - $1.00 kosten, zu vermeiden, da sie keine wettbewerbsfähige Leistung bieten. Je nach Ihren Bedürfnissen sollten Sie höherpreisige Modelle wie Opus/GPT-5 für Intelligenz auswählen oder eine kostengünstige Geschwindigkeit mit Liquid/Mistral wählen.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch

Entwicklers Obsidian-KI-Agenten-Projekt wird über Nacht viral
Nachrichten

Entwicklers Obsidian-KI-Agenten-Projekt wird über Nacht viral

Ein Doktorand baute ein Team von KI-Agenten, um seinen Obsidian-Vault zu verwalten, teilte es auf GitHub und wachte nach weniger als 13 Stunden mit über 700 Sternen auf. Die plötzliche Aufmerksamkeit löste Panik aus, woraufhin das Repository vorübergehend privat gesetzt wurde, bevor es mit Verbesserungen wieder geöffnet wurde.

OpenClawRadar
Claude verdoppelt die Nutzungslimits außerhalb der Spitzenzeiten für zwei Wochen
Nachrichten

Claude verdoppelt die Nutzungslimits außerhalb der Spitzenzeiten für zwei Wochen

Anthropic verdoppelt vorübergehend die Nutzungslimits von Claude außerhalb der Stoßzeiten für alle Tarife. An Wochentagen außerhalb von 5–11 Uhr PT/12–18 Uhr GMT gibt es die doppelte Nutzung, an Wochenenden gilt die Verdopplung ganztägig.

OpenClawRadar
Claude Code Postmortem: Drei Fehler führten zu Qualitätsminderung – jetzt behoben
Nachrichten

Claude Code Postmortem: Drei Fehler führten zu Qualitätsminderung – jetzt behoben

Anthropic führte die jüngsten Qualitätsbeschwerden zu Claude Code auf drei separate Änderungen zurück: Der standardmäßige Reasoning-Aufwand wurde gesenkt, ein Caching-Fehler ließ das Sitzungsgedächtnis fallen, und ein Prompt zur Reduzierung der Ausführlichkeit beeinträchtigte die Code-Qualität. Alle wurden zum 20. April (v2.1.116) behoben.

OpenClawRadar
OpenAI arbeitet an KI-Smartphone mit MediaTek/Qualcomm-Chips; Massenproduktion für 2028 geplant
Nachrichten

OpenAI arbeitet an KI-Smartphone mit MediaTek/Qualcomm-Chips; Massenproduktion für 2028 geplant

Laut dem Lieferkettenanalysten Ming-Chi Kuo entwickelt OpenAI mit den Chip-Partnern MediaTek und Qualcomm, dem exklusiven Hersteller Luxshare Precision und einer für 2028 geplanten Massenproduktion ein KI-Smartphone. Das Gerät ist als kontextbewusste KI-Agenten-Plattform positioniert.

OpenClawRadar