LLM-компилятор: детерминированная архитектура превосходит GPT-4.1

Детерминированная компиляция для рабочих процессов LLM

Разработчик экспериментирует с детерминированной архитектурой компиляции для структурированных рабочих процессов LLM. Вместо того чтобы позволять модели планировать и выполнять всё авторегрессивно, система компилирует граф рабочего процесса заранее, используя типизированные реестры узлов, контракты параметров и статическую валидацию.

Цель — предотвратить накопление ошибок, которое обычно возникает в более глубоких многошаговых цепочках. Этот подход представляет собой переход от чисто авторегрессивного выполнения к более структурированной, предварительно скомпилированной системе рабочих процессов.

Результаты бенчмарков

Разработчик провёл бенчмарки для глубины рабочих процессов от 3 до 12+ узлов и сравнил с базовым промптингом на GPT-4.1 и Claude Sonnet 4.6:

Рабочие процессы на 3-5 узлов: Компилятор: 1.00, базовый GPT-4.1: 0.76, Claude Sonnet 4.6: 0.60
5-8 узлов: Компилятор: 1.00, GPT-4.1: 0.72, Claude: 0.46
8-10 узлов: Компилятор: 0.88, GPT-4.1: 0.68, Claude: 0.54
10+ узлов: Компилятор: 0.96, GPT-4.1: 0.76, Claude: 0.72

Архитектура компилятора сохраняла идеальную производительность до 8 узлов, показывая лишь незначительное снижение на 8-10 узлах, прежде чем вернуться к почти идеальной производительности на 10+ узлах. В то же время и GPT-4.1, и Claude демонстрировали последовательное снижение производительности по мере увеличения глубины рабочего процесса.

Статус проекта

Статья скоро появится на arXiv, но страница проекта была опубликована досрочно для тех, кто интересуется подходом или хочет оценить исследование. Страница проекта доступна по адресу: https://prnvh.github.io/compiler.html

Этот подход может быть особенно полезен разработчикам, создающим сложные многошаговые AI-рабочие процессы, где накопление ошибок в традиционных авторегрессивных подходах становится проблемой. Модель детерминированной компиляции обеспечивает более предсказуемое поведение и потенциально лучшую обработку ошибок в сложных цепочках.

📖 Read the full source: r/LocalLLaMA

Детерминированная архитектура компилятора для многошаговых LLM-процессов демонстрирует высокие результаты в тестах.

Детерминированная компиляция для рабочих процессов LLM

Результаты бенчмарков

Статус проекта

👀 Смотрите также

MCP контекстное раздувание: реальные затраты и практическое решение для пользователей Claude Code

Подход многоагентных дебатов повышает качество рассуждений в больших языковых моделях.

Claude-rank: Плагин Claude Code для аудита видимости в поисковых системах

Хеддл: Принудительное обеспечение доверия и ведение журнала аудита для подключений Claude Desktop MCP