Homelab-Entwickler testet 19 lokale LLMs mit 45 praktischen Tests auf AMD Strix Halo

Praktisches Benchmarking für reale LLM-Anwendungsfälle
Ein Entwickler mit einem Homelab-Setup hat umfangreiche Tests von lokalen LLMs mit einem benutzerdefinierten 45-Test-Benchmark-Suite durchgeführt, der auf tatsächlichen Anwendungsfällen basiert und nicht auf generischen akademischen Benchmarks. Die Tests wurden auf einem AMD Strix Halo-System mit Ryzen AI MAX+ 395, 128 GB RAM und 96 GB gemeinsam genutztem VRAM unter Verwendung von Vulkan/RADV mit llama-server (kyuz0 Docker-Image) durchgeführt.
Warum benutzerdefinierte Benchmarks wichtig sind
Der Entwickler verwendet Claude Opus für interaktives Programmieren, benötigt aber lokale Modelle für 24/7-Dienste, einschließlich:
- E-Mail-Klassifizierung, die alle 15 Minuten läuft, um 50+ E-Mails zu sortieren
- Kamerabenachrichtigungen mit Vision-Modellen zur Beschreibung von Bewegungsalarmen
- Mahlzeitenplanung mit Ernährungsbeschränkungen
- Finanzanalyse für Steuerszenarien und Portfolio-Projektionen
- Home Assistant-Automatisierungsgenerierung und -validierung
Diese Aufgaben erfordern schnelle, zuverlässige Modelle mit guten strukturierten Ausgabefähigkeiten, die generische Benchmarks wie MMLU-Scores nicht angemessen messen.
Der 45-Test-Suite
Der Benchmark umfasst Tests in 12 Kategorien, die jeweils von Claude Opus 4.6 mit 0-10 Punkten gegen spezifische Bewertungsraster bewertet wurden:
- Programmierung (4 Tests): Docker Compose, systemd-Dienste, Python-Skripte, Code-Review
- Homelab-Betrieb (6 Tests): Speicheranalyse, OOM-Debugging, Festplattenanalyse, Netzwerkdebugging, Log-Parsing
- Tool-Aufrufe (5 Tests): Proxmox pct/qm-Befehle, SSH-Ketten, Docker-Operationen, Git-Workflows
- Essen/Mahlzeitenplanung (6 Tests): JSON-Mahlzeitenpläne, Vorbereitungspläne, Rezeptskalierung, Einkaufslisten, Ernährung
- Finanzen (5 Tests): Steuerberechnungen, Portfolioanalyse, FIRE-Projektionen, Tax-Loss-Harvesting
- E-Mail-Klassifizierung (3 Tests): Kategoriezuweisung, mehrdeutige Fälle, Abmeldeentscheidungen
- Home Assistant (3 Tests): Automatisierungs-YAML, Template-Sensoren, Bedingungen
- Mathematik (4 Tests): Hypothekenabzahlung, Wahrscheinlichkeit, Zahlentheorie, Steueroptimierung
- Logisches Denken (3 Tests): Energierechnungen, Statistik, Logikbeschränkungen
- Befolgung von Anweisungen (3 Tests): Formatkonformität, JSON-Ausgabe, negative Einschränkungen
- Langer Kontext (1 Test): Fakten aus einem 8K-Token-Infrastrukturdokument extrahieren
- Geschwindigkeit (2 Tests): Zeit bis zum ersten Token, anhaltende Generierung
Neun Tests werden als "kritisch" für die häufigsten Anwendungsfälle des Entwicklers mit dem Faktor 2 gewichtet, mit einer maximal möglichen Punktzahl von 540.
Testmethodik
Jeder Test hat spezifische Bewertungsraster, die definieren, was eine gute Antwort ausmacht. Zum Beispiel erfordert der Speicheranalysetest die korrekte Identifizierung, dass "verfügbarer" Speicher (22 GB) die tatsächliche freie Metrik ist, nicht "frei" (5,7 GB), und dass Swap-Nutzung nicht kritisch ist. Der Steuerberechnungstest prüft korrekte AGI, zu versteuerndes Einkommen und Steuerklassenberechnungen. Alle Rohantworten und Bewertungsraster werden zur Gegenprüfung gespeichert.
Getestete Modelle
Der Entwickler testete 19 Modellkonfigurationen aus 6 Familien auf Vulkan mit llama-server, einschließlich:
- Qwen-Familie: Qwen3.5-122B-A10B (10B aktive MoE) - zuvor in Produktion verwendet, Qwen3-Coder-Next 80B-A3B (3B aktiv)
- Gemma 4 26B-A4B - landete nach der Behebung von zwei separaten Fehlern, die es anfangs als defekt erscheinen ließen, an der Spitze
Der Entwickler weist darauf hin, dass dies keine strenge akademische Methodik ist, sondern praktische Tests, um zu bestimmen, welche Modelle für spezifische Homelab-Aufgaben am besten funktionieren.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Onboarding eines KI-Agenten als Teammitglied: Ein realer Geschäftsfall
Ein Unternehmen teilt seine Erfahrungen mit der Einarbeitung seines ersten KI-Agenten als tatsächliches Teammitglied, das Design, Code, Marketing und Betrieb übernimmt, und stellt fest, dass die schwierigen Teile nicht die technische Einrichtung waren.

Entwicklung einer Fantasy-Baseball-Analyse-App mit Claude Code: Erfahrungen eines Jurastudenten
Ein Jura-Student mit einem Informatik-Abschluss von 2017 hat Ball Knower entwickelt, eine Fantasy-Baseball-Analyse-iOS-App, wobei er Claude Code für die Umsetzung nutzte und alle Produkt- und Fachbereichsentscheidungen traf. Die App bietet 1.313 MLB-Spielerprofile, tägliche Pitcher-Empfehlungen für Streaming und Dynasty-Ranglisten, mit einem Backend, das 30 Cron-Jobs ausführt, die Daten aus 9 Quellen beziehen.

Claude als einziger Kunstlehrer: Ergebnisse der ersten Woche und überraschende Kritiken
Ein Entwickler nutzte Claude als seinen einzigen Lehrer für Buntstift-Porträts. Claudes Kritik ignorierte die Hautton-Mischung und markierte stattdessen die anfängliche Fünf-Minuten-Skizze als Kernproblem.

Claude-Code zur Reverse-Engineering von Disney Infinity 1.0 verwendet, durchbricht 13-jährige Charakterbeschränkung
Ein Entwickler nutzte Claude Code (Opus 4.6 mit hoher Denkfähigkeit), um die Disney Infinity 1.0-Spielbinärdatei zu reverse-engineeren. Dabei identifizierte und patchte er 13 Validierungsaufrufstellen, die verhinderten, dass Charaktere in beliebigen Playsets spielen konnten. Die Lösung erforderte 17 Binärpatches und 3 modifizierte Datendateien und löste ein Problem, das die Modding-Community über ein Jahrzehnt lang nicht knacken konnte.