Многоагентная система хайку соответствует Claude Opus в решении сложной задачи по теории чисел при 15-кратном снижении затрат.

✍️ OpenClawRadar📅 Опубликовано: 7 марта 2026 г.🔗 Source

Экспериментальная установка и результаты

Пользователь Reddit провёл сравнительный тест между двумя конфигурациями модели Claude на сложной задаче из теории чисел. Задача требовала доказать, что для нечётного простого числа p сумма 1^(p-1) + 2^(p-1) + ... + (p-1)^(p-1) сравнима с -1 (mod p), используя малую теорему Ферма и свойства первообразных корней.

Были протестированы две конфигурации:

Конфигурация X (Opus соло): Claude Opus 4.5 с max_tokens: 2048, без аудитора
Конфигурация Y (многоагентная Haiku): Генератор Haiku создаёт полное доказательство, второй аудитор Haiku проверяет каждый шаг, с двумя проходами, если аудитор что-то помечает, max_tokens: 1024 на каждый вызов

Оценка и производительность

Обе конфигурации получили оценку 4/4 по следующей рубрике:

Корректно применяет малую теорему Ферма
Корректно работает с аргументом о первообразных корнях
Суммирование по полной системе вычетов валидно
Вывод о сравнении следует корректно

Аудитор Haiku вернул статус VERIFIED без разногласий. Метрики производительности:

Opus соло: ~8.7 секунд, оценка 4/4
Haiku + аудитор: ~10.9 секунд, оценка 4/4

Анализ стоимости

Экономические последствия значительны:

Opus соло: $0.075/1000 токенов × ~800 токенов = ~$0.06 за запрос
Haiku + Haiku: $0.0025/1000 токенов × ~1600 токенов = ~$0.004 за запрос

Это представляет примерно в 15 раз меньшую стоимость при идентичных результатах на данной задаче. Задача была описана как "действительно сложная" и не очевидная из обучающих данных, в отличие от более простых доказательств.

В источнике отмечается, что на чистых задачах, где малая теорема Ферма выполняет основную работу (каждое a^(p-1) ≡ 1, сумма (p-1) единиц, получаем p-1 ≡ -1), паттерн с аудитором добавляет около 17% временных затрат для подтверждения корректности. Этот паттерн особенно ценен для задач, где генератор может споткнуться из-за квантования или галлюцинированной алгебры.

📖 Read the full source: r/ClaudeAI

👀 Смотрите также

Инструменты

Бруннфельдский Агентный Мир: МногоАгентная Симуляция Средневековой Экономики Без Поведенческих Подсказок

Симуляция на TypeScript, где 20 агентов LLM автономно торгуют в средневековой деревенской экономике без поведенческих инструкций, целей или торговых стратегий. Агенты получают около 200 токенов восприятия за каждый такт и взаимодействуют через детерминированный движок, обрабатывающий физику, рецепты и рыночную механику.

23 мар. 2026 г., 22:45 UTC

OpenClawRadar

Инструменты

Логира: Аудит среды выполнения eBPF для запусков AI-агентов

Logira — это инструмент командной строки для Linux, работающий только в режиме наблюдения. Он записывает события выполнения, файловые и сетевые события через eBPF во время запусков ИИ-агентов, с локальным хранилищем на каждый запуск в форматах JSONL и SQLite, а также со встроенными правилами обнаружения для доступа к учетным данным, изменений постоянства и подозрительных шаблонов.

2 мар. 2026 г., 07:45 UTC

OpenClawRadar

Инструменты

InsForge: Самостоятельно размещаемый бэкенд на Postgres с интеграцией MCP для AI-агентов программирования

InsForge — это открытая, саморазмещаемая бэкенд-альтернатива Supabase, которая подключается к Claude Code через MCP, позволяя ИИ-агентам видеть схему, политики и состояние сервиса. Включает PostgreSQL 16.4, PostgREST, Deno Runtime, аутентификацию, хранилище и edge-функции.

22 мар. 2026 г., 07:45 UTC

OpenClawRadar

Инструменты

Фабрика агентов: Автономная система создает ИИ-агентов из онлайн-обсуждений проблем

Agent Factory — это автономная система, которая собирает данные с Reddit, HN, GitHub и Twitter о реальных проблемах, оценивает их по спросу, рыночному разрыву и выполнимости, а затем создаёт автономные ИИ-агенты для перспективных идей. Система использует минимальный шаблон Next.js с 7 инструментами и запускает Claude Code в фоновом режиме через shell-скрипт.

16 апр. 2026 г., 01:45 UTC

OpenClawRadar