Pruebas de referencia de tonterías: resistencia de LLM a indicaciones sin sentido

Qué mide el Bullshit Benchmark
El Bullshit Benchmark es una herramienta para probar si los modelos de lenguaje grandes (LLM) identifican y rechazan indicaciones sin sentido en lugar de responderlas con confianza. Mide cuánto está dispuesto un modelo a seguir un absurdo obvio, abordando la preocupación de que los modelos puedan autoinducir alucinaciones al intentar ser útiles en lugar de señalar indicaciones problemáticas.
Resultados clave del benchmark
Según el material fuente, los modelos Claude muestran un rendimiento significativamente mejor que los modelos Gemini en la detección de sinsentidos. Los resultados respaldan la intuición de que los modelos Claude son mejores en esta capacidad específica.
Un ejemplo del benchmark muestra que Claude identificó con éxito una pregunta sin sentido mientras que Gemini falló. Específicamente, Gemini 3.1 Pro no logró detectar una pregunta obviamente absurda incluso con un alto esfuerzo de pensamiento habilitado, generando en su lugar una respuesta sin sentido.
La fuente sugiere que el enfoque de post-entrenamiento de Anthropic contribuye al mejor rendimiento de Claude, señalando que los LLM tienden naturalmente hacia un pensamiento asociativo superficial que genera relaciones espurias entre conceptos. Anthropic parece haber abordado este problema en su pipeline de post-entrenamiento.
Por qué esto importa para los agentes de IA de codificación
Para los desarrolladores que utilizan asistentes de codificación con IA, la capacidad de un modelo para reconocer indicaciones sin sentido es crucial. Cuando los modelos responden con confianza a preguntas absurdas en lugar de rechazarlas, pueden desorientar a los usuarios y generar código o explicaciones incorrectos. Este benchmark proporciona una forma concreta de evaluar este comportamiento de seguridad específico en diferentes modelos.
Puedes ver los resultados completos del benchmark en https://petergpt.github.io/bullshit-benchmark/viewer/index.html.
📖 Read the full source: r/ClaudeAI
👀 Ver también

CrabMeat v0.1.0: Un Gateway de Agentes Centrado en Seguridad que No Confía en el LLM para el Límite de Seguridad
CrabMeat v0.1.0 es una puerta de enlace WebSocket para cargas de trabajo de LLM agentivas que impone seguridad a nivel arquitectónico: indirección de ID de capacidad, clases de efecto, IRONCLAD_CONTEXT instrucciones fijadas, cadena de auditoría a prueba de manipulaciones, filtro de fugas de salida en streaming y sin modo YOLO.

Conduid: Capa de Infraestructura de Confianza para Servidores MCP Construidos con Claude
Conduid indexa más de 25,000 servidores MCP en GitHub, npm, PyPI y los principales directorios, asignando a cada uno una puntuación de 0 a 100 basada en la actividad de GitHub, la postura de seguridad, la calidad de la documentación y las señales de mantenimiento. Todo el código fue escrito con Claude por un fundador en solitario.

El Método de Cuantización JANG Mejora el Rendimiento de MLX para Modelos Grandes
Un nuevo método de cuantización llamado JANG permite ejecutar modelos grandes como MiniMax-M2.5 y Qwen 3.5 en el framework MLX de Apple con un rendimiento significativamente mejor que la cuantización estándar de MLX, logrando velocidades casi nativas mientras mantiene una precisión comparable a las cuantizaciones de mayor número de bits.

El ajuste fino de Qwen3.5-2B con la arquitectura RAG-Engram mejora la precisión de respuestas fundamentadas del 50% al 93% en un contexto de 8K.
Un desarrollador ajustó Qwen3.5-2B con una arquitectura personalizada RAG-Engram para abordar el fenómeno de 'perdido en el medio', mejorando las respuestas correctas en 8K tokens del 50% al 93% en consultas del mundo real. El sistema utiliza un enfoque de dos niveles con incrustaciones de entidades estáticas y navegación dinámica de fragmentos.