Многоагентная система хайку соответствует Claude Opus в решении сложной задачи по теории чисел при 15-кратном снижении затрат.

Экспериментальная установка и результаты
Пользователь Reddit провёл сравнительный тест между двумя конфигурациями модели Claude на сложной задаче из теории чисел. Задача требовала доказать, что для нечётного простого числа p сумма 1^(p-1) + 2^(p-1) + ... + (p-1)^(p-1) сравнима с -1 (mod p), используя малую теорему Ферма и свойства первообразных корней.
Были протестированы две конфигурации:
- Конфигурация X (Opus соло): Claude Opus 4.5 с max_tokens: 2048, без аудитора
- Конфигурация Y (многоагентная Haiku): Генератор Haiku создаёт полное доказательство, второй аудитор Haiku проверяет каждый шаг, с двумя проходами, если аудитор что-то помечает, max_tokens: 1024 на каждый вызов
Оценка и производительность
Обе конфигурации получили оценку 4/4 по следующей рубрике:
- Корректно применяет малую теорему Ферма
- Корректно работает с аргументом о первообразных корнях
- Суммирование по полной системе вычетов валидно
- Вывод о сравнении следует корректно
Аудитор Haiku вернул статус VERIFIED без разногласий. Метрики производительности:
- Opus соло: ~8.7 секунд, оценка 4/4
- Haiku + аудитор: ~10.9 секунд, оценка 4/4
Анализ стоимости
Экономические последствия значительны:
- Opus соло: $0.075/1000 токенов × ~800 токенов = ~$0.06 за запрос
- Haiku + Haiku: $0.0025/1000 токенов × ~1600 токенов = ~$0.004 за запрос
Это представляет примерно в 15 раз меньшую стоимость при идентичных результатах на данной задаче. Задача была описана как "действительно сложная" и не очевидная из обучающих данных, в отличие от более простых доказательств.
В источнике отмечается, что на чистых задачах, где малая теорема Ферма выполняет основную работу (каждое a^(p-1) ≡ 1, сумма (p-1) единиц, получаем p-1 ≡ -1), паттерн с аудитором добавляет около 17% временных затрат для подтверждения корректности. Этот паттерн особенно ценен для задач, где генератор может споткнуться из-за квантования или галлюцинированной алгебры.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Бруннфельдский Агентный Мир: МногоАгентная Симуляция Средневековой Экономики Без Поведенческих Подсказок
Симуляция на TypeScript, где 20 агентов LLM автономно торгуют в средневековой деревенской экономике без поведенческих инструкций, целей или торговых стратегий. Агенты получают около 200 токенов восприятия за каждый такт и взаимодействуют через детерминированный движок, обрабатывающий физику, рецепты и рыночную механику.

Логира: Аудит среды выполнения eBPF для запусков AI-агентов
Logira — это инструмент командной строки для Linux, работающий только в режиме наблюдения. Он записывает события выполнения, файловые и сетевые события через eBPF во время запусков ИИ-агентов, с локальным хранилищем на каждый запуск в форматах JSONL и SQLite, а также со встроенными правилами обнаружения для доступа к учетным данным, изменений постоянства и подозрительных шаблонов.

InsForge: Самостоятельно размещаемый бэкенд на Postgres с интеграцией MCP для AI-агентов программирования
InsForge — это открытая, саморазмещаемая бэкенд-альтернатива Supabase, которая подключается к Claude Code через MCP, позволяя ИИ-агентам видеть схему, политики и состояние сервиса. Включает PostgreSQL 16.4, PostgREST, Deno Runtime, аутентификацию, хранилище и edge-функции.

Фабрика агентов: Автономная система создает ИИ-агентов из онлайн-обсуждений проблем
Agent Factory — это автономная система, которая собирает данные с Reddit, HN, GitHub и Twitter о реальных проблемах, оценивает их по спросу, рыночному разрыву и выполнимости, а затем создаёт автономные ИИ-агенты для перспективных идей. Система использует минимальный шаблон Next.js с 7 инструментами и запускает Claude Code в фоновом режиме через shell-скрипт.