Homelab-Entwickler testet 19 lokale LLMs mit 45 praktischen Tests auf AMD Strix Halo

✍️ OpenClawRadar📅 Veröffentlicht: 14. April 2026🔗 Source
Homelab-Entwickler testet 19 lokale LLMs mit 45 praktischen Tests auf AMD Strix Halo
Ad

Praktisches Benchmarking für reale LLM-Anwendungsfälle

Ein Entwickler mit einem Homelab-Setup hat umfangreiche Tests von lokalen LLMs mit einem benutzerdefinierten 45-Test-Benchmark-Suite durchgeführt, der auf tatsächlichen Anwendungsfällen basiert und nicht auf generischen akademischen Benchmarks. Die Tests wurden auf einem AMD Strix Halo-System mit Ryzen AI MAX+ 395, 128 GB RAM und 96 GB gemeinsam genutztem VRAM unter Verwendung von Vulkan/RADV mit llama-server (kyuz0 Docker-Image) durchgeführt.

Warum benutzerdefinierte Benchmarks wichtig sind

Der Entwickler verwendet Claude Opus für interaktives Programmieren, benötigt aber lokale Modelle für 24/7-Dienste, einschließlich:

  • E-Mail-Klassifizierung, die alle 15 Minuten läuft, um 50+ E-Mails zu sortieren
  • Kamerabenachrichtigungen mit Vision-Modellen zur Beschreibung von Bewegungsalarmen
  • Mahlzeitenplanung mit Ernährungsbeschränkungen
  • Finanzanalyse für Steuerszenarien und Portfolio-Projektionen
  • Home Assistant-Automatisierungsgenerierung und -validierung

Diese Aufgaben erfordern schnelle, zuverlässige Modelle mit guten strukturierten Ausgabefähigkeiten, die generische Benchmarks wie MMLU-Scores nicht angemessen messen.

Der 45-Test-Suite

Der Benchmark umfasst Tests in 12 Kategorien, die jeweils von Claude Opus 4.6 mit 0-10 Punkten gegen spezifische Bewertungsraster bewertet wurden:

  • Programmierung (4 Tests): Docker Compose, systemd-Dienste, Python-Skripte, Code-Review
  • Homelab-Betrieb (6 Tests): Speicheranalyse, OOM-Debugging, Festplattenanalyse, Netzwerkdebugging, Log-Parsing
  • Tool-Aufrufe (5 Tests): Proxmox pct/qm-Befehle, SSH-Ketten, Docker-Operationen, Git-Workflows
  • Essen/Mahlzeitenplanung (6 Tests): JSON-Mahlzeitenpläne, Vorbereitungspläne, Rezeptskalierung, Einkaufslisten, Ernährung
  • Finanzen (5 Tests): Steuerberechnungen, Portfolioanalyse, FIRE-Projektionen, Tax-Loss-Harvesting
  • E-Mail-Klassifizierung (3 Tests): Kategoriezuweisung, mehrdeutige Fälle, Abmeldeentscheidungen
  • Home Assistant (3 Tests): Automatisierungs-YAML, Template-Sensoren, Bedingungen
  • Mathematik (4 Tests): Hypothekenabzahlung, Wahrscheinlichkeit, Zahlentheorie, Steueroptimierung
  • Logisches Denken (3 Tests): Energierechnungen, Statistik, Logikbeschränkungen
  • Befolgung von Anweisungen (3 Tests): Formatkonformität, JSON-Ausgabe, negative Einschränkungen
  • Langer Kontext (1 Test): Fakten aus einem 8K-Token-Infrastrukturdokument extrahieren
  • Geschwindigkeit (2 Tests): Zeit bis zum ersten Token, anhaltende Generierung

Neun Tests werden als "kritisch" für die häufigsten Anwendungsfälle des Entwicklers mit dem Faktor 2 gewichtet, mit einer maximal möglichen Punktzahl von 540.

Ad

Testmethodik

Jeder Test hat spezifische Bewertungsraster, die definieren, was eine gute Antwort ausmacht. Zum Beispiel erfordert der Speicheranalysetest die korrekte Identifizierung, dass "verfügbarer" Speicher (22 GB) die tatsächliche freie Metrik ist, nicht "frei" (5,7 GB), und dass Swap-Nutzung nicht kritisch ist. Der Steuerberechnungstest prüft korrekte AGI, zu versteuerndes Einkommen und Steuerklassenberechnungen. Alle Rohantworten und Bewertungsraster werden zur Gegenprüfung gespeichert.

Getestete Modelle

Der Entwickler testete 19 Modellkonfigurationen aus 6 Familien auf Vulkan mit llama-server, einschließlich:

  • Qwen-Familie: Qwen3.5-122B-A10B (10B aktive MoE) - zuvor in Produktion verwendet, Qwen3-Coder-Next 80B-A3B (3B aktiv)
  • Gemma 4 26B-A4B - landete nach der Behebung von zwei separaten Fehlern, die es anfangs als defekt erscheinen ließen, an der Spitze

Der Entwickler weist darauf hin, dass dies keine strenge akademische Methodik ist, sondern praktische Tests, um zu bestimmen, welche Modelle für spezifische Homelab-Aufgaben am besten funktionieren.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

RunLobster KI-Agent erstellt funktionale Dashboards aus natürlichen Sprachanfragen.
Anwendungsfälle

RunLobster KI-Agent erstellt funktionale Dashboards aus natürlichen Sprachanfragen.

Ein Entwickler berichtet, dass RunLobster als Reaktion auf einen einzigen Befehl in natürlicher Sprache ein vollständiges Dashboard mit Stripe-Integration und Authentifizierung erstellt und bereitgestellt hat, womit in Minuten erledigt wurde, was normalerweise Tage dauern würde.

OpenClawRadar
Entwickler erstellt und veröffentlicht Mobile Game mit Claude Code
Anwendungsfälle

Entwickler erstellt und veröffentlicht Mobile Game mit Claude Code

Ein Entwickler nutzte Claude Code, um ein vollständiges Mobile Game namens Blaster Balls zu erstellen und zu veröffentlichen, ein physikbasiertes Puzzle-Spiel für Android. Die KI übernahm Kernspielsysteme, Projektstruktur, UI-Overlays und Feature-Iterationen, während der Entwickler sich auf Spielgefühl, Mechaniken und Monetarisierung konzentrierte.

OpenClawRadar
Verwendung von Kimi K2.6 zur korrekten Deinstallation von macOS-Apps durch Auffinden versteckter App-Verzeichnisse
Anwendungsfälle

Verwendung von Kimi K2.6 zur korrekten Deinstallation von macOS-Apps durch Auffinden versteckter App-Verzeichnisse

Ein Entwickler beschreibt die Verwendung von Kimi K2.6, um automatisch macOS-App-Verzeichnisse zu finden und zu löschen, einschließlich versteckter ~/.appname- und ~/Library/Application Support-Dateien, mit einem benutzerdefinierten Agenten, der sein Basiswissen bearbeitet, um den Prozess zu verbessern.

OpenClawRadar
🦀
Anwendungsfälle

Claude Code schrieb jede Zeile eines 50er-Jahre-Startvideos in Remotion – aber es brauchte etwa 100 Eingabeaufforderungen

Ein Entwickler beschreibt detailliert, wie er Claude Code verwendet hat, um jede Zeile TypeScript/TSX für ein Remotion-Launchvideo zu generieren. Der Prozess erforderte ~100 Prompts, ein detailliertes kreatives Briefing, szenenweise Iteration und häufige Git-Diffs.

OpenClawRadar