Granite 4.1: IBMs 8B dichtes Modell erreicht Benchmarks von 32B MoE

✍️ OpenClawRadar📅 Veröffentlicht: 30. April 2026🔗 Source
Granite 4.1: IBMs 8B dichtes Modell erreicht Benchmarks von 32B MoE
Ad

IBM hat Granite 4.1 veröffentlicht, eine Open-Source-Sprachmodellfamilie (Apache 2.0) mit den Größen 3B, 8B und 30B. Alle verwenden einen dichten Decoder-Only-Transformer – kein MoE, keine langen Reasoning-Ketten. Das 8B-Modell sticht hervor: Es entspricht oder übertrifft das vorherige Granite 4.0-H-Small (32B MoE, 9B aktiv) in mehreren Benchmarks.

Wichtige Benchmark-Ergebnisse

  • ArenaHard (Qualität realer Prompts): 8B erreicht 69,0, 32B MoE niedriger.
  • BFCL V3 (Tool-Nutzung): 8B erreicht 68,3, 32B MoE 64,7.
  • GSM8K (mathematisches Reasoning): 8B erreicht 92,5.
  • AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP: 8B übertrifft das größere Modell durchgängig.
Ad

Trainingspipeline

Granite 4.1 wurde mit 15 Billionen Tokens in fünf Phasen mit sich ändernden Datenmischungen trainiert:

  • Phase 1: 59% CommonCrawl, 20% Code, 7% Mathematik.
  • Phase 2: Mathematik steigt auf 35%, Code auf 30%.
  • Phasen 3-4: Mischung aus Chain-of-Thought-Reasoning, Instruktionsdaten und hochwertigen Webinhalten.
  • Phase 5: Erweiterung des Kontextfensters auf 512K Tokens (8B und 30B).

Die entscheidende Erkenntnis: Datenqualität vor Parameterskalierung. IBMs Datenfilter-Pipeline verwirft halluzinierte oder instruktionsignorierende Beispiele während des Feintunings, um das Training auf schlechten Signalen zu vermeiden.

Warum dies für KI-Agenten wichtig ist

Dichte Modelle bieten vorhersagbare Latenz und Kosten – kein Routing-Overhead. Für Entwickler von KI-Codierungsagenten bietet das 8B-Modell von Granite 4.1 starke Tool-Nutzung und mathematisches Reasoning zu einem Bruchteil der Rechenkosten von MoE-Modellen.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

Anthropic bringt 10 Finanz-KI-Agenten für Pitchbooks, KYC und Monatsabschluss auf den Markt
Nachrichten

Anthropic bringt 10 Finanz-KI-Agenten für Pitchbooks, KYC und Monatsabschluss auf den Markt

Anthropic hat 10 einsatzbereite KI-Agenten für Finanzdienstleistungen und Versicherungen veröffentlicht, die Pitchbook-Erstellung, KYC-Screening und Monatsabschluss abdecken, bereitgestellt über Claude Cowork, Claude Code und Managed Agents.

OpenClawRadar
Talkie: Ein 13B LLM, ausschließlich mit Texten vor 1931 trainiert, unter Verwendung von Claude als Bewerter im RL-Training
Nachrichten

Talkie: Ein 13B LLM, ausschließlich mit Texten vor 1931 trainiert, unter Verwendung von Claude als Bewerter im RL-Training

Forscher haben Talkie veröffentlicht, ein 13B-LLM, das ausschließlich auf Texten aus der Zeit vor 1931 trainiert wurde (kein Internet, keine Daten zum Zweiten Weltkrieg). Claude Sonnet 4.6 wurde als Richter in der Online-DPO-verstärkungslern-Pipeline verwendet, und Claude Opus 4.4 generierte synthetische Multi-Turn-Gespräche für das Feintuning. Das Modell kann aus wenigen kontextuellen Beispielen Python-Code schreiben, obwohl im Training keinerlei moderner Code vorhanden war.

OpenClawRadar
Xiaomi veröffentlicht MiMo-V2.5-Pro als Open Source: Nähert sich Claude Opus 4.6 bei Programmier-Benchmarks
Nachrichten

Xiaomi veröffentlicht MiMo-V2.5-Pro als Open Source: Nähert sich Claude Opus 4.6 bei Programmier-Benchmarks

Xiaomi hat MiMo-V2.5-Pro veröffentlicht, ein Open-Source-Coding-Modell, das bei einem Universitäts-Compiler-Projekt 233/233 Punkte erzielte, eigenständig einen Videoeditor entwickelte und auf SWE-Bench und Terminal-Bench innerhalb der besten 1% von Claude Opus 4.6 liegt.

OpenClawRadar
Mikrons 200 Milliarden Dollar Investition zur Überwindung von KI-Speicherengpässen.
Nachrichten

Mikrons 200 Milliarden Dollar Investition zur Überwindung von KI-Speicherengpässen.

Micron verpflichtet sich zu einer Investition von 200 Milliarden Dollar zur Überwindung von Engpässen in der KI-Speicherkapazität und zielt darauf ab, die KI-Verarbeitungsfähigkeiten zu verbessern.

OpenClawRadar