19 Lokale LLMs im Test: Gemma 4 26B-A4B vs AMD Strix Halo Benchmark

Praktisches Benchmarking für reale LLM-Anwendungsfälle

Ein Entwickler mit einem Homelab-Setup hat umfangreiche Tests von lokalen LLMs mit einem benutzerdefinierten 45-Test-Benchmark-Suite durchgeführt, der auf tatsächlichen Anwendungsfällen basiert und nicht auf generischen akademischen Benchmarks. Die Tests wurden auf einem AMD Strix Halo-System mit Ryzen AI MAX+ 395, 128 GB RAM und 96 GB gemeinsam genutztem VRAM unter Verwendung von Vulkan/RADV mit llama-server (kyuz0 Docker-Image) durchgeführt.

Warum benutzerdefinierte Benchmarks wichtig sind

Der Entwickler verwendet Claude Opus für interaktives Programmieren, benötigt aber lokale Modelle für 24/7-Dienste, einschließlich:

E-Mail-Klassifizierung, die alle 15 Minuten läuft, um 50+ E-Mails zu sortieren
Kamerabenachrichtigungen mit Vision-Modellen zur Beschreibung von Bewegungsalarmen
Mahlzeitenplanung mit Ernährungsbeschränkungen
Finanzanalyse für Steuerszenarien und Portfolio-Projektionen
Home Assistant-Automatisierungsgenerierung und -validierung

Diese Aufgaben erfordern schnelle, zuverlässige Modelle mit guten strukturierten Ausgabefähigkeiten, die generische Benchmarks wie MMLU-Scores nicht angemessen messen.

Der 45-Test-Suite

Der Benchmark umfasst Tests in 12 Kategorien, die jeweils von Claude Opus 4.6 mit 0-10 Punkten gegen spezifische Bewertungsraster bewertet wurden:

Programmierung (4 Tests): Docker Compose, systemd-Dienste, Python-Skripte, Code-Review
Homelab-Betrieb (6 Tests): Speicheranalyse, OOM-Debugging, Festplattenanalyse, Netzwerkdebugging, Log-Parsing
Tool-Aufrufe (5 Tests): Proxmox pct/qm-Befehle, SSH-Ketten, Docker-Operationen, Git-Workflows
Essen/Mahlzeitenplanung (6 Tests): JSON-Mahlzeitenpläne, Vorbereitungspläne, Rezeptskalierung, Einkaufslisten, Ernährung
Finanzen (5 Tests): Steuerberechnungen, Portfolioanalyse, FIRE-Projektionen, Tax-Loss-Harvesting
E-Mail-Klassifizierung (3 Tests): Kategoriezuweisung, mehrdeutige Fälle, Abmeldeentscheidungen
Home Assistant (3 Tests): Automatisierungs-YAML, Template-Sensoren, Bedingungen
Mathematik (4 Tests): Hypothekenabzahlung, Wahrscheinlichkeit, Zahlentheorie, Steueroptimierung
Logisches Denken (3 Tests): Energierechnungen, Statistik, Logikbeschränkungen
Befolgung von Anweisungen (3 Tests): Formatkonformität, JSON-Ausgabe, negative Einschränkungen
Langer Kontext (1 Test): Fakten aus einem 8K-Token-Infrastrukturdokument extrahieren
Geschwindigkeit (2 Tests): Zeit bis zum ersten Token, anhaltende Generierung

Neun Tests werden als "kritisch" für die häufigsten Anwendungsfälle des Entwicklers mit dem Faktor 2 gewichtet, mit einer maximal möglichen Punktzahl von 540.

Testmethodik

Jeder Test hat spezifische Bewertungsraster, die definieren, was eine gute Antwort ausmacht. Zum Beispiel erfordert der Speicheranalysetest die korrekte Identifizierung, dass "verfügbarer" Speicher (22 GB) die tatsächliche freie Metrik ist, nicht "frei" (5,7 GB), und dass Swap-Nutzung nicht kritisch ist. Der Steuerberechnungstest prüft korrekte AGI, zu versteuerndes Einkommen und Steuerklassenberechnungen. Alle Rohantworten und Bewertungsraster werden zur Gegenprüfung gespeichert.

Getestete Modelle

Der Entwickler testete 19 Modellkonfigurationen aus 6 Familien auf Vulkan mit llama-server, einschließlich:

Qwen-Familie: Qwen3.5-122B-A10B (10B aktive MoE) - zuvor in Produktion verwendet, Qwen3-Coder-Next 80B-A3B (3B aktiv)
Gemma 4 26B-A4B - landete nach der Behebung von zwei separaten Fehlern, die es anfangs als defekt erscheinen ließen, an der Spitze

Der Entwickler weist darauf hin, dass dies keine strenge akademische Methodik ist, sondern praktische Tests, um zu bestimmen, welche Modelle für spezifische Homelab-Aufgaben am besten funktionieren.

📖 Read the full source: r/LocalLLaMA

Homelab-Entwickler testet 19 lokale LLMs mit 45 praktischen Tests auf AMD Strix Halo

Praktisches Benchmarking für reale LLM-Anwendungsfälle

Warum benutzerdefinierte Benchmarks wichtig sind

Der 45-Test-Suite

Testmethodik

Getestete Modelle

👀 Siehe auch

ALTWORLD: Eine persistente Lebenssimulationsarchitektur, die LLM von der Datenbank trennt, um KI-Amnesie zu lösen

Claude Code Agents Orchestrator Pipeline: Arbeitswarteschlangen, Agenten-Erzeugung, Verifikationsschleusen

Einzelentwickler führt Unternehmen mit 4 KI-Agenten auf Geminis kostenloser Stufe

Tiefgehende Forschungsberichte mit Hermes Agent und Qwen3.6-35b-a3b: Ein praktischer Leitfaden