Исследователь разрабатывает функцию проверки достоверности для кода Claude и обнаруживает галлюцинации в собственной документации.

✍️ OpenClawRadar📅 Опубликовано: 20 апреля 2026 г.🔗 Source
Ad

Архитектура навыка проверки достоверности

Исследователь с образованием в области науки о сне из Университета Майами создал навык Claude Code под названием /veracity-tweaked-555, который разбивает документы на атомарные утверждения и проверяет каждое через веб-поиск. Инструмент использует 16 параллельных агентов в 4 волнах за запуск и был создан в сотрудничестве с Claude Code (Opus 4.6), где Claude писал код, а исследователь разрабатывал методологию.

Результаты самоаудита и паттерны ошибок

Когда исследователь запустил проверку достоверности на собственной документации SKILL.md, она получила оценку 62 из 100. Навык, предназначенный для выявления галлюцинаций, содержал вымышленные факты в собственной документации, включая:

  • Сфабрикованную статистику производительности («в 3 раза точнее» для SAFE, что в статье никогда не утверждалось)
  • Преувеличенное заявление об улучшении в статье («+35,5%» на самом деле было +5,5% по сравнению с SOTA)
  • Вымышленную расшифровку аббревиатуры для реальной методики

После первоначальных исправлений оценка достигла 80, затем 84 после третьего запуска. Через неделю, после более строгого цикла конвергенции с 6 запусками, 19 агентами и 35 дополнительными исправлениями, она стабилизировалась на 96,5/100. Однако аудит v3 упал до 74, потому что исправления v1 внесли новые ошибки (заниженная стоимость токенов и неполный список инструментов).

Ошибки следуют устойчивым паттернам: преувеличение атрибуции (несколько более сильные формулировки, чем позволяет источник), правдоподобные, но сфабрикованные идентификаторы (PMID, arXiv ID, которые выглядят реальными, но указывают на другие статьи), и устаревшая статистика, представленная как актуальная.

Ad

Проблема инженерии контекста

Один запуск аудита генерирует примерно 917 тыс. токенов на 16 агентах, превышая контекстное окно Claude Code в 200 тыс. Когда Claude Code сжимает диалоги, чтобы оставаться в пределах, он выполняет сжатие с потерями. После нескольких сжатий агент теряет связь между находками — какое исправление вызвало какой регресс, какое утверждение противоречит другому. Отдельные факты (имена, числа, сигнатуры функций) сохраняются лучше, чем связи между ними.

Диагноз Claude заключался в том, что реляционная информация — причинно-следственные цепочки, перекрёстные ссылки, многошаговые зависимости — сложнее сохранить в резюме, чем изолированные факты.

Решение и дополнительные аудиты навыков

Исследователь решил эту проблему, создав сопутствующий навык под названием /context-engineer, который предсказывает переполнение до его возникновения и выносит реляционное состояние во внешние JSON-файлы на диске. Тест дизайна: если вы можете выполнить /clear для всего диалога и продолжить только из файла состояния, архитектура правильная.

Запуск проверок достоверности на других навыках Claude Code выявил:

  • У одного навыка был сфабрикованный заголовок статьи в разделе атрибуции — цитирование выглядело идеально (авторы, место публикации), но заголовок был вымышленным, а год указан неверно
  • Тот же навык неправильно приписал фреймворк аудита не той организации по стандартизации, что встречалось в нескольких местах
  • У навыка /context-engineer были внутренние противоречия — в тексте говорилось «5-10 тыс. токенов», а в таблице — «5-15 тыс. токенов» для одного и того же показателя

Потребовалось 12 исправлений для всех навыков. Все они прошли проверку с оценкой 95+ после трёх последовательных запусков после корректировок.

📖 Прочитать полный источник: r/ClaudeAI

Ad

👀 Смотрите также

Инструмент с открытым исходным кодом позволяет Claude напрямую управлять Unreal Engine.
Инструменты

Инструмент с открытым исходным кодом позволяет Claude напрямую управлять Unreal Engine.

soft-ue-cli — это инструмент на Python с плагином на C++, который позволяет Claude Code и Claude Desktop выполнять команды в Unreal Engine без взаимодействия с редактором, предоставляя более 60 операций, включая редактирование блюпринтов, создание акторов и профилирование производительности.

OpenClawRadar
Анамнез: Переносимый слой памяти для Claude и ChatGPT через MCP
Инструменты

Анамнез: Переносимый слой памяти для Claude и ChatGPT через MCP

Anamnese — это бесплатный MCP-сервер, который хранит воспоминания, задачи, цели и заметки в Claude и ChatGPT, извлекая только релевантный контекст в разговоры, позволяя пользователям просматривать, редактировать и экспортировать свои данные.

OpenClawRadar
Memex: Плагин с открытым исходным кодом для расширения памяти в Claude Cowork
Инструменты

Memex: Плагин с открытым исходным кодом для расширения памяти в Claude Cowork

Memex — это плагин с открытым исходным кодом, который предоставляет Claude Cowork постоянную память между сессиями с помощью многоуровневой системы загрузки контекста. После однократного запуска команды /memex:init, Claude самостоятельно знакомится с проектом примерно за 20 секунд в каждой сессии и продолжает с того места, где вы остановились.

OpenClawRadar
Tocket CLI: Инженерный Фреймворк Контекста для ИИ-Агентов Программирования
Инструменты

Tocket CLI: Инженерный Фреймворк Контекста для ИИ-Агентов Программирования

Tocket — это CLI-инструмент, который создает папку .context/ с файлами в формате markdown для AI-агентов, чтобы они могли сохранять память о проекте между сессиями. Он автоматически определяет стек технологий из package.json и генерирует предварительно настроенный файл .cursorrules.

OpenClawRadar