Bullshit Benchmark: comparativa Claude vs Gemini en rechazo de sinsentidos

Qué mide el Bullshit Benchmark

El Bullshit Benchmark es una herramienta para probar si los modelos de lenguaje grandes (LLM) identifican y rechazan indicaciones sin sentido en lugar de responderlas con confianza. Mide cuánto está dispuesto un modelo a seguir un absurdo obvio, abordando la preocupación de que los modelos puedan autoinducir alucinaciones al intentar ser útiles en lugar de señalar indicaciones problemáticas.

Resultados clave del benchmark

Según el material fuente, los modelos Claude muestran un rendimiento significativamente mejor que los modelos Gemini en la detección de sinsentidos. Los resultados respaldan la intuición de que los modelos Claude son mejores en esta capacidad específica.

Un ejemplo del benchmark muestra que Claude identificó con éxito una pregunta sin sentido mientras que Gemini falló. Específicamente, Gemini 3.1 Pro no logró detectar una pregunta obviamente absurda incluso con un alto esfuerzo de pensamiento habilitado, generando en su lugar una respuesta sin sentido.

La fuente sugiere que el enfoque de post-entrenamiento de Anthropic contribuye al mejor rendimiento de Claude, señalando que los LLM tienden naturalmente hacia un pensamiento asociativo superficial que genera relaciones espurias entre conceptos. Anthropic parece haber abordado este problema en su pipeline de post-entrenamiento.

Por qué esto importa para los agentes de IA de codificación

Para los desarrolladores que utilizan asistentes de codificación con IA, la capacidad de un modelo para reconocer indicaciones sin sentido es crucial. Cuando los modelos responden con confianza a preguntas absurdas en lugar de rechazarlas, pueden desorientar a los usuarios y generar código o explicaciones incorrectos. Este benchmark proporciona una forma concreta de evaluar este comportamiento de seguridad específico en diferentes modelos.

Puedes ver los resultados completos del benchmark en https://petergpt.github.io/bullshit-benchmark/viewer/index.html.

📖 Read the full source: r/ClaudeAI

Pruebas de referencia de tonterías: resistencia de LLM a indicaciones sin sentido

Qué mide el Bullshit Benchmark

Resultados clave del benchmark

Por qué esto importa para los agentes de IA de codificación

👀 Ver también

VibeIndex.ai: Centro de búsqueda para más de 90K habilidades de IA, MCPs y complementos con escaneo de seguridad

La herramienta de lectura de Claude Code reduce silenciosamente la calidad de las imágenes, provocando alucinaciones

Consola del Piloto: Panel Web para Gestionar Redes de Agentes de IA Privados

boxBot: Un altavoz inteligente de código abierto impulsado por Claude y Hailo AI