Исследователь разрабатывает функцию проверки достоверности для кода Claude и обнаруживает галлюцинации в собственной документации.

✍️ OpenClawRadar📅 Опубликовано: 20 апреля 2026 г.🔗 Source

Архитектура навыка проверки достоверности

Исследователь с образованием в области науки о сне из Университета Майами создал навык Claude Code под названием /veracity-tweaked-555, который разбивает документы на атомарные утверждения и проверяет каждое через веб-поиск. Инструмент использует 16 параллельных агентов в 4 волнах за запуск и был создан в сотрудничестве с Claude Code (Opus 4.6), где Claude писал код, а исследователь разрабатывал методологию.

Результаты самоаудита и паттерны ошибок

Когда исследователь запустил проверку достоверности на собственной документации SKILL.md, она получила оценку 62 из 100. Навык, предназначенный для выявления галлюцинаций, содержал вымышленные факты в собственной документации, включая:

Сфабрикованную статистику производительности («в 3 раза точнее» для SAFE, что в статье никогда не утверждалось)
Преувеличенное заявление об улучшении в статье («+35,5%» на самом деле было +5,5% по сравнению с SOTA)
Вымышленную расшифровку аббревиатуры для реальной методики

После первоначальных исправлений оценка достигла 80, затем 84 после третьего запуска. Через неделю, после более строгого цикла конвергенции с 6 запусками, 19 агентами и 35 дополнительными исправлениями, она стабилизировалась на 96,5/100. Однако аудит v3 упал до 74, потому что исправления v1 внесли новые ошибки (заниженная стоимость токенов и неполный список инструментов).

Ошибки следуют устойчивым паттернам: преувеличение атрибуции (несколько более сильные формулировки, чем позволяет источник), правдоподобные, но сфабрикованные идентификаторы (PMID, arXiv ID, которые выглядят реальными, но указывают на другие статьи), и устаревшая статистика, представленная как актуальная.

Проблема инженерии контекста

Один запуск аудита генерирует примерно 917 тыс. токенов на 16 агентах, превышая контекстное окно Claude Code в 200 тыс. Когда Claude Code сжимает диалоги, чтобы оставаться в пределах, он выполняет сжатие с потерями. После нескольких сжатий агент теряет связь между находками — какое исправление вызвало какой регресс, какое утверждение противоречит другому. Отдельные факты (имена, числа, сигнатуры функций) сохраняются лучше, чем связи между ними.

Диагноз Claude заключался в том, что реляционная информация — причинно-следственные цепочки, перекрёстные ссылки, многошаговые зависимости — сложнее сохранить в резюме, чем изолированные факты.

Решение и дополнительные аудиты навыков

Исследователь решил эту проблему, создав сопутствующий навык под названием /context-engineer, который предсказывает переполнение до его возникновения и выносит реляционное состояние во внешние JSON-файлы на диске. Тест дизайна: если вы можете выполнить /clear для всего диалога и продолжить только из файла состояния, архитектура правильная.

Запуск проверок достоверности на других навыках Claude Code выявил:

У одного навыка был сфабрикованный заголовок статьи в разделе атрибуции — цитирование выглядело идеально (авторы, место публикации), но заголовок был вымышленным, а год указан неверно
Тот же навык неправильно приписал фреймворк аудита не той организации по стандартизации, что встречалось в нескольких местах
У навыка /context-engineer были внутренние противоречия — в тексте говорилось «5-10 тыс. токенов», а в таблице — «5-15 тыс. токенов» для одного и того же показателя

Потребовалось 12 исправлений для всех навыков. Все они прошли проверку с оценкой 95+ после трёх последовательных запусков после корректировок.

📖 Прочитать полный источник: r/ClaudeAI

👀 Смотрите также

Инструменты

AI Sandbox Manager: изолированная среда LXC для Codex с передачей GPU и использованием компьютера на headless Linux

ai-sandbox-manager — это LXC-песочница с открытым исходным кодом для агентов Codex на headless Linux. Она обеспечивает проброс GPU, полный доступ sudo, постоянные окружения и использование компьютера через CUA, изолируя агента от хост-ОС.

7 июн. 2026 г., 12:15 UTC

OpenClawRadar

Инструменты

Клод Код создал Treelo: бесплатный инструмент для транскрипции видео

Видеоредактор использовал Claude Code для создания Treelo — бесплатного инструмента, который транскрибирует видео- и аудиофайлы, удаляет слова-паразиты, позволяет размещать звуковые эффекты с точной привязкой к таймкодам и экспортирует SRT для Premiere или ASS для DaVinci Resolve.

5 апр. 2026 г., 10:45 UTC

OpenClawRadar

Инструменты

В документации Google Workspace CLI добавлено руководство по настройке OpenClaw.

Новая документация gws (Google Workspace CLI) от Google явно упоминает настройку OpenClaw по имени в специальном разделе, посвященном навыкам ИИ-агентов. Это следует за недавними обсуждениями о том, что Google пересматривает блокировки аккаунтов для ИИ-агентов.

9 мар. 2026 г., 03:45 UTC

OpenClawRadar

Инструменты

Codex Chrome Extension добавляет фоновую автоматизацию браузера между вкладками

Новое расширение Codex для Chrome на macOS/Windows позволяет выполнять параллельные задачи в фоновых вкладках, не захватывая браузер — включая отладку, работу с дашбордами, исследования и обновление CRM.

8 мая 2026 г., 08:17 UTC

OpenClawRadar