Тест на устойчивость языковых моделей к бессмысленным запросам

Что измеряет Бенчмарк Bullshit
Бенчмарк Bullshit — это инструмент для проверки того, идентифицируют ли большие языковые модели (LLM) бессмысленные запросы и возражают против них, вместо того чтобы уверенно отвечать на них. Он измеряет, насколько модель готова соглашаться с очевидной бессмыслицей, затрагивая опасения, что модели могут вызывать у себя галлюцинации, пытаясь быть полезными, вместо того чтобы указывать на проблемные запросы.
Ключевые результаты бенчмарка
Согласно исходному материалу, модели Claude демонстрируют значительно лучшую производительность, чем модели Gemini, в обнаружении бессмыслицы. Результаты подтверждают интуицию, что модели Claude лучше справляются с этой конкретной способностью.
Один пример из бенчмарка показывает, что Claude успешно идентифицировал бессмысленный вопрос, в то время как Gemini не справился. В частности, Gemini 3.1 Pro не смог обнаружить очевидно бессмысленный вопрос даже при включённом высоком уровне усилий мышления, вместо этого сгенерировав бессмысленный ответ.
Источник предполагает, что подход Anthropic к пост-обучению способствует лучшей производительности Claude, отмечая, что LLM естественным образом склонны к поверхностному ассоциативному мышлению, которое порождает ложные связи между концепциями. Похоже, Anthropic решила эту проблему в своём конвейере пост-обучения.
Почему это важно для ИИ-агентов в программировании
Для разработчиков, использующих ИИ-ассистентов для программирования, способность модели распознавать бессмысленные запросы имеет решающее значение. Когда модели уверенно отвечают на бессмысленные вопросы вместо того, чтобы возражать, они могут вводить пользователей в заблуждение и генерировать неправильный код или объяснения. Этот бенчмарк предоставляет конкретный способ оценить это конкретное поведение безопасности в различных моделях.
Вы можете просмотреть полные результаты бенчмарка на https://petergpt.github.io/bullshit-benchmark/viewer/index.html.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Исследование Aura: Локальный инструмент компилирует документы в навигационную вики с постоянной памятью для ИИ
Aura Research — это инструмент с открытым исходным кодом, который обрабатывает исходные документы (PDF-файлы, статьи, заметки, код, более 60 форматов) и преобразует их в структурированную вики на языке markdown со связанными статьями, страницами понятий и главным указателем. Всё сжимается в архив .aura, оптимизированный для поиска с помощью RAG, и работает полностью локально, без передачи данных за пределы вашего компьютера.

Топ-6 навыков Claude с открытым исходным кодом (15 апреля – 3 мая)
Шесть навыков Claude с открытым исходным кодом за последние 15 дней: бренд-алхимия, npm-downloads-to-leads, hyperframes, email-newsletter, ценообразование и другие. Подробный разбор функциональности каждого навыка.

Гильдия OpenClaw: Многопользовательский сервер с ИИ-агентами для команд
OpenClaw Guild расширяет однопользовательский OpenClaw до многопользовательского AI-сервера с контролем доступа на основе ролей, изолированными данными для каждого агента и 4-уровневой системой памяти. Включает веб-админку и развертывание через Docker-compose для настройки за 15 минут.

DoomVLM: Инструмент с открытым исходным кодом для тестирования моделей "визуальный язык" в дуэлях на выживание в Doom
DoomVLM теперь имеет открытый исходный код в виде единого блокнота Jupyter, который позволяет тестировать визуально-языковые модели, играющие в Doom через совместимые с OpenAI API. Инструмент поддерживает режимы deathmatch, где могут соревноваться до 4 моделей, с полными настройками системных промптов, описаний инструментов и параметров сэмплирования.