Vergleichende Übersicht über die schnelle LLM-Inferenz von Anthropic und OpenAI

Anthropic und OpenAI haben kürzlich 'Schnellmodus'-Funktionen eingeführt, um die Geschwindigkeit ihrer Sprachmodell-Inferenzen zu verbessern. Diese Modi bieten deutlich verbesserte Token-pro-Sekunde-Raten beim Arbeiten mit ihren Codierungsmodellen, unterscheiden sich jedoch erheblich in Ansatz und Möglichkeiten.
Wichtige Details
Anthropics Schnellmodus liefert bis zu 2,5x Tokens pro Sekunde, mit einem Anstieg von Opus 4.6s 65 Tokens auf etwa 170. Diese Verbesserung wird durch die Priorisierung von Inferenz mit niedriger Batch-Größe erreicht. Der Nachteil besteht darin, dass für schnellere Antworten mehr gezahlt werden muss (sechsmal die Kosten), da die reduzierte Batch-Größe eine schnellere Datenverarbeitung ermöglicht, ähnlich einem Bussystem, das sofort abfährt, ohne auf das Füllen zu warten, obwohl dieser Modus weiterhin auf dem tatsächlichen Opus 4.6-Modell läuft.
Im Gegensatz dazu zeigt OpenAI einen deutlich anderen Ansatz und erreicht über 1000 Tokens pro Sekunde, was das 15-fache der vorherigen Rate von GPT-5.3-Codex' Basis 65 Tokens pro Sekunde ist. Dies wird über ihr neues Modell, GPT-5.3-Codex-Spark, erreicht, das speziell für Geschwindigkeit entwickelt wurde, indem Cerebras-Chips verwendet werden. Diese Chips, die sich durch ihre große Größe (70 Quadratzoll im Vergleich zu einem typischen H100-Chip mit einem Quadratzoll) auszeichnen, bieten ultra-niedrig-latenz Compute, indem sie vollständige Modelle in ihrem umfangreichen internen Speicher unterbringen.
Während OpenAIs Einrichtung den erheblichen Geschwindigkeitsvorteil bietet, vollständig im Speicher mit minimierten Datenübertragungsverzögerungen zu arbeiten, geht dies mit einem Kompromiss hinsichtlich der Modellfähigkeiten einher. GPT-5.3-Codex-Spark ist trotz seiner Geschwindigkeitseffizienz weniger leistungsfähig als sein Basis-Gegenstück, insbesondere wenn es darum geht, komplexere Aufgaben oder Toolaufrufe zu bewältigen.
Für wen es gedacht ist
Dieser Vergleich ist besonders relevant für Entwickler, die die Leistung von KI-Systemen optimieren, und bewertet entscheidende Aspekte für diejenigen, die Geschwindigkeit gegen Fähigkeit abwägen.
📖 Vollständige Quelle lesen: HN LLM Tools
👀 Siehe auch

Via Open Source Universal Integration Layer verbindet KI-Tools mit einem gemeinsamen Kontextbus
Via ist eine quelloffene universelle Integrationsschicht, die Claude, Cursor, Windsurf, ChatGPT, LangChain und andere KI-Tools mit einem gemeinsamen Kontext-, Aufgaben- und Speicherbus verbindet, sodass Arbeit den Benutzern über Tools, Sitzungen und Maschinen hinweg folgen kann.

No-Code Persistent Memory System für Claude mit Notion und MCP
Ein Radiologe hat in Notion einen 'Cognitive Hub' aufgebaut, den Claude über MCP liest und beschreibt, wodurch eine strukturierte Wissensdatenbank mit einer Routing-Tabelle entsteht, um nur relevante Informationen pro Konversation zu laden. Das System ist nach einem Monat täglicher Nutzung auf über 70 Seiten angewachsen.

Jork Agentic Framework, das mit Claude entwickelt wurde, erreicht Top 10 bei 4-Millionen-Dollar-Hackathon
Ein Entwickler hat ein agentisches Framework namens Jork mit Claude- und GLM-Modellen erstellt, das kürzlich unter 2000+ Bewerbungen bei einem Hackathon mit 4 Millionen Dollar Preisgeld einen Platz unter den Top 10 erreichte. Das Projekt entwickelte sich aus früheren gescheiterten Versuchen, einen vollständig autonomen Agenten zu erschaffen.

Adam: Eine einbettbare, plattformübergreifende KI-Agenten-Bibliothek in C
Adam ist eine C-Bibliothek, die einen vollständigen Agenten-Loop mit Tool-Aufrufen, Gedächtnis, Sprache und Unterstützung für Cloud- sowie lokale LLMs bietet und dafür entwickelt wurde, in jede Anwendung eingebettet zu werden.