Gemma 4 31B übertrifft größere Modelle auf dem FoodTruck Bench.

✍️ OpenClawRadar📅 Veröffentlicht: 21. April 2026🔗 Source
Gemma 4 31B übertrifft größere Modelle auf dem FoodTruck Bench.
Ad
Ad

Benchmark-Ergebnisse und Analyse

Gemma 4 31B erreichte den 3. Platz beim FoodTruck Bench Benchmark und übertraf dabei mehrere größere und etabliertere Modelle. Laut der Reddit-Diskussion schlug das Modell GLM 5, Qwen 3.5 397B und alle Claude Sonnet-Varianten.

Der FoodTruck Bench ist ein Benchmark, der Sprachmodelle an komplexen, mehrstufigen Planungsaufgaben testet. Der ursprüngliche Beitrag spekuliert, dass Gemma 4s Leistung darauf hindeutet, dass es langfristige Aufgaben besser bewältigt als frühere Modelle, die den Benchmark nicht abschließen konnten. Insbesondere scheint das Modell effektiv auf seine eigenen Ratschläge zu hören, wenn es die nachfolgenden Schritte in der Aufgabenabfolge plant.

Dieses Ergebnis ist bemerkenswert, weil Gemma 4 31B deutlich kleiner ist als einige der Modelle, die es übertroffen hat. Qwen 3.5 397B hat beispielsweise etwa 12,8-mal mehr Parameter als Gemma 4 31B. Die Leistung deutet darauf hin, dass Modellarchitektur und Trainingsansätze für bestimmte Arten von Denkaufgaben ebenso wichtig sein könnten wie die Parameteranzahl.

Der FoodTruck Bench testet Modelle an praktischen Planungsszenarien, die die Aufrechterhaltung des Kontexts über längere Aktionssequenzen erfordern. Das Design des Benchmarks macht ihn besonders relevant für Entwickler, die mit KI-Agenten arbeiten, die mehrstufige Aufgaben in realen Anwendungen ausführen müssen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Entwickler bekennt sich schuldig an 8-Millionen-Dollar-Betrugsschema mit KI-Musikstreaming
Nachrichten

Entwickler bekennt sich schuldig an 8-Millionen-Dollar-Betrugsschema mit KI-Musikstreaming

Michael Smith, 54, gestand, Tausende von Bot-Konten und KI-generierte Songs genutzt zu haben, um zwischen 2017 und 2024 8 Millionen US-Dollar an Tantiemen von Streaming-Plattformen wie Spotify, Apple Music und YouTube Music abzuzweigen.

OpenClawRadar
Claude Code v2.1.132: Sanftes Herunterfahren bei SIGINT, MCP-Korrekturen und Überarbeitung der Terminalverarbeitung
Nachrichten

Claude Code v2.1.132: Sanftes Herunterfahren bei SIGINT, MCP-Korrekturen und Überarbeitung der Terminalverarbeitung

Claude Code v2.1.132 behebt das Graceful Shutdown bei externem SIGINT, fügt die Umgebungsvariablen CLAUDE_CODE_SESSION_ID und CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN hinzu, behebt MCP-Speicherlecks und Tool-Listing-Wiederholungen und löst Dutzende von Terminal-Grenzfällen in IDE-Terminals.

OpenClawRadar
Mistral Medium 3.5 128B veröffentlicht: Dichtes Modell mit konfigurierbarem Reasoning und Vision
Nachrichten

Mistral Medium 3.5 128B veröffentlicht: Dichtes Modell mit konfigurierbarem Reasoning und Vision

Mistral AI hat Mistral Medium 3.5 veröffentlicht, ein dichtes Modell mit 128B Parametern, 256k Kontext, konfigurierbarem Reasoning-Aufwand und Vision-Funktionen, unter einer modifizierten MIT-Lizenz.

OpenClawRadar
OpenAIs 10-Milliarden-Dollar-Private-Equity-Joint-Venture: Was es für die KI-Bereitstellung bedeutet
Nachrichten

OpenAIs 10-Milliarden-Dollar-Private-Equity-Joint-Venture: Was es für die KI-Bereitstellung bedeutet

OpenAI schließt ein Joint Venture im Wert von 10 Milliarden Dollar mit Private-Equity-Firmen ab, um die KI-Infrastruktur zu skalieren und den Unternehmenseinsatz voranzutreiben, wie Bloomberg berichtet.

OpenClawRadar