Methodik für konsistentes Benchmarking von lokalen vs. Cloud-LLMs

✍️ OpenClawRadar📅 Veröffentlicht: 14. April 2026🔗 Source
Methodik für konsistentes Benchmarking von lokalen vs. Cloud-LLMs
Ad

Ein Entwickler auf r/LocalLLaMA hat eine Methodik beschrieben, um konsistente Benchmark-Zahlen beim Vergleich lokaler LLMs mit Cloud-APIs zu erhalten. Damit werden häufige Frustrationen aufgrund von Äpfel-mit-Birnen-Vergleichen durch unterschiedliche Latenzen, Bewertungen und Methodiken angegangen.

Das Kernproblem beim Benchmarking

Naive Vergleiche, die Anfragen sowohl an lokale als auch Cloud-Modelle senden, messen unterschiedliche Dinge. Cloud-APIs beinhalten Warteschlangen, Lastverteilung und Routing. Lokale Modelle beinhalten Aufwärmphase, Batching und GPU-Konkurrenz. Die umgesetzte Lösung besteht darin, ausschließlich sequenzielle Anfragen zu verwenden. Obwohl langsamer – ein 60-Aufrufe-Benchmark dauert ~3 Minuten statt 45 Sekunden – stellt dies sicher, dass jede Messung sauber ist und die Inferenzzeit von der Wartezeit isoliert.

Der Messaufbau

Der Aufbau nutzt ZenMux als einheitlichen Endpunkt, der eine Basis-URL für vier Modelle bereitstellt: GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro und ein lokales Llama 4 quant. Der Ansatz funktioniert mit jedem OpenAI-kompatiblen Endpunkt, wie zum Beispiel:

  • llama.cpp server: curl http://localhost:8080/v1/chat/completions ...
  • vLLM: curl http://localhost:8000/v1/chat/completions ...
  • Ollama: curl http://localhost:11434/v1/chat/completions ...

Der Schlüssel liegt darin, denselben Client-Code, dieselben Timeout-Einstellungen und dieselbe Wiederholungslogik für alles zu verwenden.

Ad

Wie die Messung funktioniert

Das System ist in fünf Module strukturiert: YAML-Konfiguration → BenchRunner → AIClient → Analyzer → Reporter.

Die YAML-Konfiguration definiert Aufgaben und Modelle. Beispiel:

suite: coding-benchmark
models:
  - gpt-5.4
  - claude-sonnet-4.6
  - gemini-3.1-pro
  - llama-4
runs_per_model: 3
tasks:
  - name: fizzbuzz
    prompt: "Write a Python function that prints FizzBuzz for numbers 1-100"
  - name: refactor-suggestion
    prompt: "Given this code, suggest improvements:\n\ndef calc(x):\n if x == 0: return 0\n if x == 1: return 1\n return calc(x-1) + calc(x-2)"

Der BenchRunner nimmt das kartesische Produkt von Aufgaben × Modelle × Durchläufe und ruft die API sequenziell auf, wobei Latenz, Prompt-Tokens und Completion-Tokens aufgezeichnet werden.

Der Bewertungsteil

Die Qualitätsbewertung ist regelbasiert, nicht LLM-als-Richter, um Selbstpräferenz-Bias zu vermeiden und Reproduzierbarkeit sicherzustellen. Die Funktion _quality_score nutzt drei Signale:

  • Antwortlänge: 50–3000 Zeichen ergeben 4.0 Punkte, kürzere Antworten 1.0, längere 3.0.
  • Formatierung: Das Vorhandensein von Aufzählungspunkten fügt bis zu 3.0 Punkte hinzu.
  • Code-Präsenz: Das Erkennen von Codeblöcken oder Funktionsdefinitionen fügt 2.0 Punkte hinzu.

Die maximale Punktzahl beträgt 9.0. Dies trennt zuverlässig „gute strukturierte Antwort“ von „Müll/leer/halluziniert“ für die relative Rangfolge. Für die Latenz wird auch die 95. Perzentil-Antwortzeit (P95) berechnet.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Dreischichtige Speicherarchitektur für persistente OpenClaw-Agentenkontexte
Anleitungen

Dreischichtige Speicherarchitektur für persistente OpenClaw-Agentenkontexte

Ein Entwickler hat ein 3-schichtiges Speichersystem auf der Infrastruktur von OpenClaw aufgebaut, um zu verhindern, dass Agenten jede Sitzung ohne Kontext beginnen. Die Architektur umfasst L1-Arbeitsbereichsdateien, die bei jedem Zugriff injiziert werden, L2-semantische Speichersuche und L3-Referenzdokumente, die bei Bedarf geöffnet werden.

OpenClawRadar
OpenClaws Gateway und Fähigkeiten: Über Chat hinaus zu automatisierter Ausführung
Anleitungen

OpenClaws Gateway und Fähigkeiten: Über Chat hinaus zu automatisierter Ausführung

OpenClaws Gateway verbindet Kanäle wie Telegram und WhatsApp mit Skills, die reale Aktionen wie das Ausführen von Tests, das Aufrufen von APIs und das Verwalten von Dateien ausführen, wobei Cron-Jobs geplante Hintergrundautomatisierung ermöglichen.

OpenClawRadar
Das LLM-Stimmproblem: Vermeidung von KI-generierten Schreibmustern
Anleitungen

Das LLM-Stimmproblem: Vermeidung von KI-generierten Schreibmustern

Ein Entwickler erörtert das häufige Problem, dass LLM-unterstütztes Schreiben erkennbare "LLM-Ismen" aufweist, die sofortige KI-Erkennung auslösen, und teilt einen Artikel über die Identifizierung dieser Muster und das Bearbeiten für Authentizität.

OpenClawRadar
Lokale Übersetzungsmodell-Empfehlungen für GPUs mit 32 GB VRAM
Anleitungen

Lokale Übersetzungsmodell-Empfehlungen für GPUs mit 32 GB VRAM

Ein Entwickler teilt getestete Empfehlungen für lokale Übersetzungsmodelle auf einem 32GB-VRAM-Setup und hebt Unsloth Gemma3 27b Instruct UD Q6_K_XL für allgemeine Sprachen sowie Bartowski Utter Project EuroLLM 22B Instruct 2512 Q8_0 für europäische Sprachen plus Koreanisch hervor.

OpenClawRadar