Бенчмарк Bullshit: тест ИИ на бессмысленные запросы

Что измеряет Бенчмарк Bullshit

Бенчмарк Bullshit — это инструмент для проверки того, идентифицируют ли большие языковые модели (LLM) бессмысленные запросы и возражают против них, вместо того чтобы уверенно отвечать на них. Он измеряет, насколько модель готова соглашаться с очевидной бессмыслицей, затрагивая опасения, что модели могут вызывать у себя галлюцинации, пытаясь быть полезными, вместо того чтобы указывать на проблемные запросы.

Ключевые результаты бенчмарка

Согласно исходному материалу, модели Claude демонстрируют значительно лучшую производительность, чем модели Gemini, в обнаружении бессмыслицы. Результаты подтверждают интуицию, что модели Claude лучше справляются с этой конкретной способностью.

Один пример из бенчмарка показывает, что Claude успешно идентифицировал бессмысленный вопрос, в то время как Gemini не справился. В частности, Gemini 3.1 Pro не смог обнаружить очевидно бессмысленный вопрос даже при включённом высоком уровне усилий мышления, вместо этого сгенерировав бессмысленный ответ.

Источник предполагает, что подход Anthropic к пост-обучению способствует лучшей производительности Claude, отмечая, что LLM естественным образом склонны к поверхностному ассоциативному мышлению, которое порождает ложные связи между концепциями. Похоже, Anthropic решила эту проблему в своём конвейере пост-обучения.

Почему это важно для ИИ-агентов в программировании

Для разработчиков, использующих ИИ-ассистентов для программирования, способность модели распознавать бессмысленные запросы имеет решающее значение. Когда модели уверенно отвечают на бессмысленные вопросы вместо того, чтобы возражать, они могут вводить пользователей в заблуждение и генерировать неправильный код или объяснения. Этот бенчмарк предоставляет конкретный способ оценить это конкретное поведение безопасности в различных моделях.

Вы можете просмотреть полные результаты бенчмарка на https://petergpt.github.io/bullshit-benchmark/viewer/index.html.

📖 Read the full source: r/ClaudeAI

Тест на устойчивость языковых моделей к бессмысленным запросам

Что измеряет Бенчмарк Bullshit

Ключевые результаты бенчмарка

Почему это важно для ИИ-агентов в программировании

👀 Смотрите также

hiresTI: Нативный проигрыватель TIDAL для Linux с поддержкой OpenClaw/MCP

开发者用每千次提示中的咒骂次数指标追踪沮丧情绪，涉及44,212条Claude Code日志

IronBee: Открытый слой верификации для Claude Code и Cursor

Терминальный 3D-рендерер, созданный с помощью мультиагентной системы кодирования Claude