Bullshit-Benchmark-Tests testen die Widerstandsfähigkeit von LLMs gegenüber unsinnigen Eingabeaufforderungen

✍️ OpenClawRadar📅 Veröffentlicht: 25. Februar 2026🔗 Source
Bullshit-Benchmark-Tests testen die Widerstandsfähigkeit von LLMs gegenüber unsinnigen Eingabeaufforderungen
Ad

Was der Bullshit-Benchmark misst

Der Bullshit-Benchmark ist ein Werkzeug, um zu testen, ob große Sprachmodelle (LLMs) unsinnige Anfragen erkennen und zurückweisen, anstatt sie selbstbewusst zu beantworten. Er misst, wie sehr ein Modell bereit ist, offensichtlichem Unsinn zu folgen, und adressiert damit die Befürchtung, dass Modelle durch ihren Hilfswillen Halluzinationen selbst induzieren könnten, anstatt problematische Anfragen zu kritisieren.

Wichtige Benchmark-Ergebnisse

Laut dem Quellenmaterial zeigen Claude-Modelle eine deutlich bessere Leistung als Gemini-Modelle bei der Erkennung von Unsinn. Die Ergebnisse stützen die Annahme, dass Claude-Modelle in dieser spezifischen Fähigkeit besser sind.

Ein Beispiel aus dem Benchmark zeigt, dass Claude eine unsinnige Frage erfolgreich identifiziert hat, während Gemini versagte. Konkret konnte Gemini 3.1 Pro eine offensichtlich unsinnige Frage selbst bei aktiviertem hohem Denkaufwand nicht erkennen und generierte stattdessen eine unsinnige Antwort.

Die Quelle deutet an, dass Anthropics Nachschulungsansatz zu Claudes besserer Leistung beiträgt, und merkt an, dass LLMs natürlicherweise zu oberflächlichem assoziativem Denken neigen, das fälschlicherweise Zusammenhänge zwischen Konzepten herstellt. Anthropic scheint dieses Problem in ihrer Nachschulungspipeline angegangen zu haben.

Ad

Warum das für KI-Coding-Assistenten wichtig ist

Für Entwickler, die KI-Coding-Assistenten nutzen, ist die Fähigkeit eines Modells, unsinnige Anfragen zu erkennen, entscheidend. Wenn Modelle unsinnige Fragen selbstbewusst beantworten, anstatt sie zurückzuweisen, können sie Nutzer in die Irre führen und falschen Code oder Erklärungen generieren. Dieser Benchmark bietet eine konkrete Möglichkeit, dieses spezifische Sicherheitsverhalten bei verschiedenen Modellen zu bewerten.

Die vollständigen Benchmark-Ergebnisse können Sie unter https://petergpt.github.io/bullshit-benchmark/viewer/index.html einsehen.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

MCP-Server verbindet Claude mit CellarTracker-Weinbestand
Werkzeuge

MCP-Server verbindet Claude mit CellarTracker-Weinbestand

Ein Entwickler hat einen MCP-Server erstellt, der Claude direkt mit CellarTracker-Konten verbindet und es ermöglicht, konversationelle Abfragen zu Weinbeständen, Verkostungsnotizen, Kaufhistorie und Trinkfenstern ohne manuelle CSV-Exporte durchzuführen.

OpenClawRadar
Manuell gesteuerte Entwicklung: Eine Methode zur Vermeidung selbstsicherer Abweichungen von Claude Code
Werkzeuge

Manuell gesteuerte Entwicklung: Eine Methode zur Vermeidung selbstsicherer Abweichungen von Claude Code

Manuell gesteuerte Entwicklung (MDD) ist eine Methode, die selbstsichere Abweichung in Claude Code adressiert, bei der die KI fehlerhaften Code erzeugt, der seine eigenen Tests besteht. In einer Produktionsprüfung fand MDD 190 Probleme, schrieb 876 neue Tests in weniger als 8 Stunden und beseitigte Regelverstöße.

OpenClawRadar
Von Replit zu Lokal: Wie ein Entwickler Claude nutzte, um StillHere zu bauen, eine KI-gestützte Chat-App
Werkzeuge

Von Replit zu Lokal: Wie ein Entwickler Claude nutzte, um StillHere zu bauen, eine KI-gestützte Chat-App

Ein Entwickler hat StillHere.ink entwickelt, eine KI-Chat-App für begleitende Gespräche mit persönlichen API-Schlüsseln, nachdem er von Replit zur lokalen Entwicklung mit Claude gewechselt ist. Die App bietet Gedächtnis, Tagebuchzusammenfassungen, RAG, Modellwechsel und Kostenkontrollfunktionen.

OpenClawRadar
Quanta-SDK v0.9.2 fügt einen MCP-Server für die Ausführung von Quantenschaltkreisen über KI-Agenten hinzu.
Werkzeuge

Quanta-SDK v0.9.2 fügt einen MCP-Server für die Ausführung von Quantenschaltkreisen über KI-Agenten hinzu.

Quanta-SDK v0.9.2 enthält jetzt einen MCP-Server (Model Context Protocol), der KI-Agenten wie Claude oder GPT Werkzeuge zur Ausführung und Interpretation von Quantenschaltkreisen bereitstellt. Der Server bietet über 20 Werkzeuge, darunter Schaltkreisausführung auf IBM-Hardware, Ergebnisinterpretation, Rauschanalyse und quantenbasierte Finanzpreisgestaltung.

OpenClawRadar