Homelab-Entwickler testet 19 lokale LLMs mit 45 praktischen Tests auf AMD Strix Halo

✍️ OpenClawRadar📅 Veröffentlicht: 14. April 2026🔗 Source
Homelab-Entwickler testet 19 lokale LLMs mit 45 praktischen Tests auf AMD Strix Halo
Ad

Praktisches Benchmarking für reale LLM-Anwendungsfälle

Ein Entwickler mit einem Homelab-Setup hat umfangreiche Tests von lokalen LLMs mit einem benutzerdefinierten 45-Test-Benchmark-Suite durchgeführt, der auf tatsächlichen Anwendungsfällen basiert und nicht auf generischen akademischen Benchmarks. Die Tests wurden auf einem AMD Strix Halo-System mit Ryzen AI MAX+ 395, 128 GB RAM und 96 GB gemeinsam genutztem VRAM unter Verwendung von Vulkan/RADV mit llama-server (kyuz0 Docker-Image) durchgeführt.

Warum benutzerdefinierte Benchmarks wichtig sind

Der Entwickler verwendet Claude Opus für interaktives Programmieren, benötigt aber lokale Modelle für 24/7-Dienste, einschließlich:

  • E-Mail-Klassifizierung, die alle 15 Minuten läuft, um 50+ E-Mails zu sortieren
  • Kamerabenachrichtigungen mit Vision-Modellen zur Beschreibung von Bewegungsalarmen
  • Mahlzeitenplanung mit Ernährungsbeschränkungen
  • Finanzanalyse für Steuerszenarien und Portfolio-Projektionen
  • Home Assistant-Automatisierungsgenerierung und -validierung

Diese Aufgaben erfordern schnelle, zuverlässige Modelle mit guten strukturierten Ausgabefähigkeiten, die generische Benchmarks wie MMLU-Scores nicht angemessen messen.

Der 45-Test-Suite

Der Benchmark umfasst Tests in 12 Kategorien, die jeweils von Claude Opus 4.6 mit 0-10 Punkten gegen spezifische Bewertungsraster bewertet wurden:

  • Programmierung (4 Tests): Docker Compose, systemd-Dienste, Python-Skripte, Code-Review
  • Homelab-Betrieb (6 Tests): Speicheranalyse, OOM-Debugging, Festplattenanalyse, Netzwerkdebugging, Log-Parsing
  • Tool-Aufrufe (5 Tests): Proxmox pct/qm-Befehle, SSH-Ketten, Docker-Operationen, Git-Workflows
  • Essen/Mahlzeitenplanung (6 Tests): JSON-Mahlzeitenpläne, Vorbereitungspläne, Rezeptskalierung, Einkaufslisten, Ernährung
  • Finanzen (5 Tests): Steuerberechnungen, Portfolioanalyse, FIRE-Projektionen, Tax-Loss-Harvesting
  • E-Mail-Klassifizierung (3 Tests): Kategoriezuweisung, mehrdeutige Fälle, Abmeldeentscheidungen
  • Home Assistant (3 Tests): Automatisierungs-YAML, Template-Sensoren, Bedingungen
  • Mathematik (4 Tests): Hypothekenabzahlung, Wahrscheinlichkeit, Zahlentheorie, Steueroptimierung
  • Logisches Denken (3 Tests): Energierechnungen, Statistik, Logikbeschränkungen
  • Befolgung von Anweisungen (3 Tests): Formatkonformität, JSON-Ausgabe, negative Einschränkungen
  • Langer Kontext (1 Test): Fakten aus einem 8K-Token-Infrastrukturdokument extrahieren
  • Geschwindigkeit (2 Tests): Zeit bis zum ersten Token, anhaltende Generierung

Neun Tests werden als "kritisch" für die häufigsten Anwendungsfälle des Entwicklers mit dem Faktor 2 gewichtet, mit einer maximal möglichen Punktzahl von 540.

Ad

Testmethodik

Jeder Test hat spezifische Bewertungsraster, die definieren, was eine gute Antwort ausmacht. Zum Beispiel erfordert der Speicheranalysetest die korrekte Identifizierung, dass "verfügbarer" Speicher (22 GB) die tatsächliche freie Metrik ist, nicht "frei" (5,7 GB), und dass Swap-Nutzung nicht kritisch ist. Der Steuerberechnungstest prüft korrekte AGI, zu versteuerndes Einkommen und Steuerklassenberechnungen. Alle Rohantworten und Bewertungsraster werden zur Gegenprüfung gespeichert.

Getestete Modelle

Der Entwickler testete 19 Modellkonfigurationen aus 6 Familien auf Vulkan mit llama-server, einschließlich:

  • Qwen-Familie: Qwen3.5-122B-A10B (10B aktive MoE) - zuvor in Produktion verwendet, Qwen3-Coder-Next 80B-A3B (3B aktiv)
  • Gemma 4 26B-A4B - landete nach der Behebung von zwei separaten Fehlern, die es anfangs als defekt erscheinen ließen, an der Spitze

Der Entwickler weist darauf hin, dass dies keine strenge akademische Methodik ist, sondern praktische Tests, um zu bestimmen, welche Modelle für spezifische Homelab-Aufgaben am besten funktionieren.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Onboarding eines KI-Agenten als Teammitglied: Ein realer Geschäftsfall
Anwendungsfälle

Onboarding eines KI-Agenten als Teammitglied: Ein realer Geschäftsfall

Ein Unternehmen teilt seine Erfahrungen mit der Einarbeitung seines ersten KI-Agenten als tatsächliches Teammitglied, das Design, Code, Marketing und Betrieb übernimmt, und stellt fest, dass die schwierigen Teile nicht die technische Einrichtung waren.

OpenClawRadar
Entwicklung einer Fantasy-Baseball-Analyse-App mit Claude Code: Erfahrungen eines Jurastudenten
Anwendungsfälle

Entwicklung einer Fantasy-Baseball-Analyse-App mit Claude Code: Erfahrungen eines Jurastudenten

Ein Jura-Student mit einem Informatik-Abschluss von 2017 hat Ball Knower entwickelt, eine Fantasy-Baseball-Analyse-iOS-App, wobei er Claude Code für die Umsetzung nutzte und alle Produkt- und Fachbereichsentscheidungen traf. Die App bietet 1.313 MLB-Spielerprofile, tägliche Pitcher-Empfehlungen für Streaming und Dynasty-Ranglisten, mit einem Backend, das 30 Cron-Jobs ausführt, die Daten aus 9 Quellen beziehen.

OpenClawRadar
Claude als einziger Kunstlehrer: Ergebnisse der ersten Woche und überraschende Kritiken
Anwendungsfälle

Claude als einziger Kunstlehrer: Ergebnisse der ersten Woche und überraschende Kritiken

Ein Entwickler nutzte Claude als seinen einzigen Lehrer für Buntstift-Porträts. Claudes Kritik ignorierte die Hautton-Mischung und markierte stattdessen die anfängliche Fünf-Minuten-Skizze als Kernproblem.

OpenClawRadar
Claude-Code zur Reverse-Engineering von Disney Infinity 1.0 verwendet, durchbricht 13-jährige Charakterbeschränkung
Anwendungsfälle

Claude-Code zur Reverse-Engineering von Disney Infinity 1.0 verwendet, durchbricht 13-jährige Charakterbeschränkung

Ein Entwickler nutzte Claude Code (Opus 4.6 mit hoher Denkfähigkeit), um die Disney Infinity 1.0-Spielbinärdatei zu reverse-engineeren. Dabei identifizierte und patchte er 13 Validierungsaufrufstellen, die verhinderten, dass Charaktere in beliebigen Playsets spielen konnten. Die Lösung erforderte 17 Binärpatches und 3 modifizierte Datendateien und löste ein Problem, das die Modding-Community über ein Jahrzehnt lang nicht knacken konnte.

OpenClawRadar