Gemma 4 31B übertrifft größere Modelle auf dem FoodTruck Bench.

Benchmark-Ergebnisse und Analyse
Gemma 4 31B erreichte den 3. Platz beim FoodTruck Bench Benchmark und übertraf dabei mehrere größere und etabliertere Modelle. Laut der Reddit-Diskussion schlug das Modell GLM 5, Qwen 3.5 397B und alle Claude Sonnet-Varianten.
Der FoodTruck Bench ist ein Benchmark, der Sprachmodelle an komplexen, mehrstufigen Planungsaufgaben testet. Der ursprüngliche Beitrag spekuliert, dass Gemma 4s Leistung darauf hindeutet, dass es langfristige Aufgaben besser bewältigt als frühere Modelle, die den Benchmark nicht abschließen konnten. Insbesondere scheint das Modell effektiv auf seine eigenen Ratschläge zu hören, wenn es die nachfolgenden Schritte in der Aufgabenabfolge plant.
Dieses Ergebnis ist bemerkenswert, weil Gemma 4 31B deutlich kleiner ist als einige der Modelle, die es übertroffen hat. Qwen 3.5 397B hat beispielsweise etwa 12,8-mal mehr Parameter als Gemma 4 31B. Die Leistung deutet darauf hin, dass Modellarchitektur und Trainingsansätze für bestimmte Arten von Denkaufgaben ebenso wichtig sein könnten wie die Parameteranzahl.
Der FoodTruck Bench testet Modelle an praktischen Planungsszenarien, die die Aufrechterhaltung des Kontexts über längere Aktionssequenzen erfordern. Das Design des Benchmarks macht ihn besonders relevant für Entwickler, die mit KI-Agenten arbeiten, die mehrstufige Aufgaben in realen Anwendungen ausführen müssen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Entwickler bekennt sich schuldig an 8-Millionen-Dollar-Betrugsschema mit KI-Musikstreaming
Michael Smith, 54, gestand, Tausende von Bot-Konten und KI-generierte Songs genutzt zu haben, um zwischen 2017 und 2024 8 Millionen US-Dollar an Tantiemen von Streaming-Plattformen wie Spotify, Apple Music und YouTube Music abzuzweigen.

Claude Code v2.1.132: Sanftes Herunterfahren bei SIGINT, MCP-Korrekturen und Überarbeitung der Terminalverarbeitung
Claude Code v2.1.132 behebt das Graceful Shutdown bei externem SIGINT, fügt die Umgebungsvariablen CLAUDE_CODE_SESSION_ID und CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN hinzu, behebt MCP-Speicherlecks und Tool-Listing-Wiederholungen und löst Dutzende von Terminal-Grenzfällen in IDE-Terminals.

Mistral Medium 3.5 128B veröffentlicht: Dichtes Modell mit konfigurierbarem Reasoning und Vision
Mistral AI hat Mistral Medium 3.5 veröffentlicht, ein dichtes Modell mit 128B Parametern, 256k Kontext, konfigurierbarem Reasoning-Aufwand und Vision-Funktionen, unter einer modifizierten MIT-Lizenz.

OpenAIs 10-Milliarden-Dollar-Private-Equity-Joint-Venture: Was es für die KI-Bereitstellung bedeutet
OpenAI schließt ein Joint Venture im Wert von 10 Milliarden Dollar mit Private-Equity-Firmen ab, um die KI-Infrastruktur zu skalieren und den Unternehmenseinsatz voranzutreiben, wie Bloomberg berichtet.