Понимание архитектуры ИИ-агентов: Детерминированные и вероятностные слои

Пользователь Reddit на r/openclaw поделился ментальной моделью для понимания систем ИИ-агентов, которая различает детерминированные и вероятностные слои. Эта структура помогает объяснить, почему некоторые настройки агентов кажутся нестабильными или непоследовательными.
Двухслойная архитектура
Пользователь описывает системы агентов как имеющие два различных типа слоёв:
Детерминированный слой
Этот слой обрабатывает традиционные вычислительные задачи, где один и тот же вход всегда даёт одинаковый выход. Примеры из источника включают:
- Скрипты на Python
- Команды Linux
- API
- Базы данных
- Операции с файлами
- Cron-задачи / планировщики
Как отмечает пользователь: "Если скрипт выполняет python scrape_news.py, компьютер просто делает именно это. Никакого творчества не требуется."
Вероятностный слой
Этот слой представляет собой компонент LLM, который по своей природе нечёткий и может каждый раз выбирать разные пути рассуждения. LLM обрабатывает такие задачи, как:
- Интерпретация желаний пользователя
- Решение, какой инструмент использовать
- Планирование шагов
- Обобщение результатов
- Выбор следующего действия
Как слои взаимодействуют
Согласно источнику, архитектура следует такому потоку:
Пользователь / событие → LLM решает, что делать → код выполняет это → результаты возвращаются к LLM → следующее решение
Пользователь описывает это так: "LLM по сути является планировщиком, а скрипты и инструменты — исполнителями."
Ключевая идея: перенос работы на детерминированную сторону
Главное осознание пользователя было таким: "хорошие системы агентов стараются перенести как можно больше работы на детерминированную сторону."
Вы не хотите, чтобы LLM обрабатывал задачи, с которыми отлично справляется детерминированный код, например:
- Парсинг JSON
- Выполнение вычислений
- Подсчёт элементов
- Управление состоянием
Пользователь заключает: "LLM в основном должен заниматься рассуждениями и решениями, а всё остальное должно обрабатываться детерминированными инструментами."
Эта ментальная модель помогла пользователю понять, почему поведение некоторых агентов казалось непоследовательным — часто это было связано с излишней зависимостью от вероятностного слоя для задач, лучше подходящих для детерминированного кода.
📖 Read the full source: r/openclaw
👀 Смотрите также

Модели Qwen3.x молча отказывают в OpenClaw из-за несоответствия формата потокового вывода.
Модели Qwen3.x в потоковом режиме выводят данные в поле 'reasoning' вместо 'content', что приводит к тихому переходу OpenClaw на резервные модели. Прокси, преобразующий форматы API и добавляющий 'think: false', решает проблему, позволяя проводить полную оценку вызовов инструментов.

Рекомендации по локальным моделям перевода для видеокарт с 32 ГБ VRAM
Разработчик делится проверенными рекомендациями по локальным моделям перевода для конфигурации с 32 ГБ видеопамяти, выделяя Unsloth Gemma3 27b Instruct UD Q6_K_XL для общих языков и Bartowski Utter Project EuroLLM 22B Instruct 2512 Q8_0 для европейских языков плюс корейский.

Оптимизация AutoResearch на RTX 5090: Что не сработало и что дало результат
Разработчик делится конкретными деталями конфигурации для запуска AutoResearch на системе RTX 5090/Blackwell, включая неудачные подходы, которые казались рабочими, но показывали плохую производительность, и рабочую конфигурацию, которая обеспечила стабильные результаты с TOTAL_BATCH_SIZE=2**17 и TIME_BUDGET=1200.

Запуск LLM с 1 триллионом параметров локально на кластере AMD Ryzen AI Max+
AMD демонстрирует запуск открытой модели Kimi K2.5 (375 ГБ, 1 триллион параметров) на четырёх системах Framework Desktop с процессорами Ryzen AI Max+ 395 с использованием llama.cpp RPC. Руководство охватывает модификации ядра TTM для выделения 120 ГБ видеопамяти на узел и предлагает два варианта настройки: предварительно собранные бинарные файлы Lemonade SDK или ручную установку ROCm 7.0.2.