Bullshit-Benchmark-Tests testen die Widerstandsfähigkeit von LLMs gegenüber unsinnigen Eingabeaufforderungen

✍️ OpenClawRadar📅 Veröffentlicht: 25. Februar 2026🔗 Source
Bullshit-Benchmark-Tests testen die Widerstandsfähigkeit von LLMs gegenüber unsinnigen Eingabeaufforderungen
Ad

Was der Bullshit-Benchmark misst

Der Bullshit-Benchmark ist ein Werkzeug, um zu testen, ob große Sprachmodelle (LLMs) unsinnige Anfragen erkennen und zurückweisen, anstatt sie selbstbewusst zu beantworten. Er misst, wie sehr ein Modell bereit ist, offensichtlichem Unsinn zu folgen, und adressiert damit die Befürchtung, dass Modelle durch ihren Hilfswillen Halluzinationen selbst induzieren könnten, anstatt problematische Anfragen zu kritisieren.

Wichtige Benchmark-Ergebnisse

Laut dem Quellenmaterial zeigen Claude-Modelle eine deutlich bessere Leistung als Gemini-Modelle bei der Erkennung von Unsinn. Die Ergebnisse stützen die Annahme, dass Claude-Modelle in dieser spezifischen Fähigkeit besser sind.

Ein Beispiel aus dem Benchmark zeigt, dass Claude eine unsinnige Frage erfolgreich identifiziert hat, während Gemini versagte. Konkret konnte Gemini 3.1 Pro eine offensichtlich unsinnige Frage selbst bei aktiviertem hohem Denkaufwand nicht erkennen und generierte stattdessen eine unsinnige Antwort.

Die Quelle deutet an, dass Anthropics Nachschulungsansatz zu Claudes besserer Leistung beiträgt, und merkt an, dass LLMs natürlicherweise zu oberflächlichem assoziativem Denken neigen, das fälschlicherweise Zusammenhänge zwischen Konzepten herstellt. Anthropic scheint dieses Problem in ihrer Nachschulungspipeline angegangen zu haben.

Ad

Warum das für KI-Coding-Assistenten wichtig ist

Für Entwickler, die KI-Coding-Assistenten nutzen, ist die Fähigkeit eines Modells, unsinnige Anfragen zu erkennen, entscheidend. Wenn Modelle unsinnige Fragen selbstbewusst beantworten, anstatt sie zurückzuweisen, können sie Nutzer in die Irre führen und falschen Code oder Erklärungen generieren. Dieser Benchmark bietet eine konkrete Möglichkeit, dieses spezifische Sicherheitsverhalten bei verschiedenen Modellen zu bewerten.

Die vollständigen Benchmark-Ergebnisse können Sie unter https://petergpt.github.io/bullshit-benchmark/viewer/index.html einsehen.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

Vergleich von 8 KI-Codierungsmodellen bei der Implementierung realer TypeScript-Funktionen
Werkzeuge

Vergleich von 8 KI-Codierungsmodellen bei der Implementierung realer TypeScript-Funktionen

Ein Entwickler testete 8 KI-Codierungsmodelle bei der Implementierung eines /rename-Befehls in einem Open-Source-TypeScript-Telegram-Bot-Projekt und bewertete sie nach Kosten, Ausführungszeit, Korrektheit und technischer Qualität. GPT-5.4 erzielte die höchste Punktzahl bei der Implementierungskorrektheit, während GLM 5 das beste Preis-Leistungs-Verhältnis bot.

OpenClawRadar
Clawback: Hooks-basierte Implementierung von durchgesickerten Claude-Verifizierungsschleifen
Werkzeuge

Clawback: Hooks-basierte Implementierung von durchgesickerten Claude-Verifizierungsschleifen

Clawback ist ein GitHub-Projekt, das die Verifikationsschleifen aus dem geleakten Claude-Quellcode als mechanische Hooks neu implementiert, anstatt sie als Prompts zu verwenden. Es enthält Stop-Hooks, PreToolUse-, PostToolUse- und PostCompact-Hooks, die vom Modell unter Kontextdruck nicht übersprungen werden können.

OpenClawRadar
Claude-Code v2.1.76 fügt MCP-Abfrage, Worktree-Optimierungen und zahlreiche Fehlerbehebungen hinzu.
Werkzeuge

Claude-Code v2.1.76 fügt MCP-Abfrage, Worktree-Optimierungen und zahlreiche Fehlerbehebungen hinzu.

Claude-Code v2.1.76 führt MCP-Abfrageunterstützung für strukturierte Eingaben während der Aufgabe ein, fügt worktree.sparsePaths für Monorepo-Effizienz hinzu und behebt über 20 Probleme, einschließlich des Verlusts von verzögerten Tool-Schemata, Slash-Befehl-Problemen und der Stabilität von Remote-Control-Sitzungen.

OpenClawRadar
engram v3.4.0 fügt Anthropic-Plugin hinzu, um Claude Code unter neuen Ratenbegrenzungen am Laufen zu halten
Werkzeuge

engram v3.4.0 fügt Anthropic-Plugin hinzu, um Claude Code unter neuen Ratenbegrenzungen am Laufen zu halten

engram v3.4.0 führt ein dediziertes Anthropic-Plugin für Claude Code ein, das drei Fähigkeiten zur Kostenverwaltung, Kontextabfrage und Fehleranzeige hinzufügt. Installieren mit `/plugin install engram` oder `npm install -g engramx@latest`.

OpenClawRadar