Granite 4.1: IBMs 8B dichtes Modell erreicht Benchmarks von 32B MoE

IBM hat Granite 4.1 veröffentlicht, eine Open-Source-Sprachmodellfamilie (Apache 2.0) mit den Größen 3B, 8B und 30B. Alle verwenden einen dichten Decoder-Only-Transformer – kein MoE, keine langen Reasoning-Ketten. Das 8B-Modell sticht hervor: Es entspricht oder übertrifft das vorherige Granite 4.0-H-Small (32B MoE, 9B aktiv) in mehreren Benchmarks.
Wichtige Benchmark-Ergebnisse
- ArenaHard (Qualität realer Prompts): 8B erreicht 69,0, 32B MoE niedriger.
- BFCL V3 (Tool-Nutzung): 8B erreicht 68,3, 32B MoE 64,7.
- GSM8K (mathematisches Reasoning): 8B erreicht 92,5.
- AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP: 8B übertrifft das größere Modell durchgängig.
Trainingspipeline
Granite 4.1 wurde mit 15 Billionen Tokens in fünf Phasen mit sich ändernden Datenmischungen trainiert:
- Phase 1: 59% CommonCrawl, 20% Code, 7% Mathematik.
- Phase 2: Mathematik steigt auf 35%, Code auf 30%.
- Phasen 3-4: Mischung aus Chain-of-Thought-Reasoning, Instruktionsdaten und hochwertigen Webinhalten.
- Phase 5: Erweiterung des Kontextfensters auf 512K Tokens (8B und 30B).
Die entscheidende Erkenntnis: Datenqualität vor Parameterskalierung. IBMs Datenfilter-Pipeline verwirft halluzinierte oder instruktionsignorierende Beispiele während des Feintunings, um das Training auf schlechten Signalen zu vermeiden.
Warum dies für KI-Agenten wichtig ist
Dichte Modelle bieten vorhersagbare Latenz und Kosten – kein Routing-Overhead. Für Entwickler von KI-Codierungsagenten bietet das 8B-Modell von Granite 4.1 starke Tool-Nutzung und mathematisches Reasoning zu einem Bruchteil der Rechenkosten von MoE-Modellen.
📖 Read the full source: HN AI Agents
👀 Siehe auch

OpenClaw 2026.4.2 und 2026.3.31 unterbrechen lokale LLM-Verbindungen
Die OpenClaw-Versionen 2026.4.2 und 2026.3.31 verursachen Verbindungszeitüberschreitungen bei lokal gehosteten Ollama-Instanzen. Das Problem tritt auf, wenn Verbindungen zu lokal laufenden Ubuntu-Systemen hergestellt werden sollen, wobei Fehlerprotokolle LLM-Anfragezeitüberschreitungen und Failover-Entscheidungen anzeigen.

Altman und Amodei relativieren ihre Vorhersagen über den Job-Apokalypse durch KI vor den Börsengängen
OpenAIs Sam Altman und Anthropics Dario Amodei geben nun zu, dass sie mit ihren Prognosen zur KI-bedingten Vernichtung von Bürojobs falsch lagen, während beide Unternehmen Börsengänge im Wert von 1 Billion US-Dollar anstreben. Goldman-Sachs-CEO David Solomon sagt, er habe von Anfang an recht gehabt.

Anthropic-Bericht zur Intensität der globalen KI-Adaption
Die neuesten Daten von Anthropic zeigen eine ungleichmäßige globale KI-Adaption, die die Intensität der Nutzung misst, nicht die Gesamtzahl der Nutzer. Der Bericht zeigt, wo KI in Arbeitsabläufe wie Programmierung, Forschung und Entscheidungsfindung bei Einzelpersonen und Unternehmen eingebettet ist.

Claude Code fügt Spracheingabe mit Push-to-Talk-Funktion hinzu
Claude Code führt den Sprachmodus zunächst für etwa 5 % der Nutzer ein, mit einer Push-to-Talk-Aktivierung durch Halten der Leertaste. Tokens für Spracherkennung zählen nicht gegen die Ratenlimits und das Feature ist ohne zusätzliche Kosten enthalten.