Сквозная трассировка стека LLM: от нажатия клавиши до потокового токена

Программист опубликовал подробный технический документ, в котором точно описывается, что происходит на каждом уровне стека при отправке промпта в LLM, такую как Claude или ChatGPT. Вдохновлённый классическим репозиторием «что происходит, когда» для навигации в браузере, этот документ даёт представление о работе чат-взаимодействий с LLM с точки зрения производственных систем.
Что охватывает документ
Документ следует полному пути в порядке производства:
- Клиентская сторона: Подсчёт токенов в реальном времени через WASM-токенизаторы, события композиции IME, оптимистичный рендеринг интерфейса
- Сеть: Почему SSE выигрывает у WebSockets для чата, проблема границ UTF-8 при потоковой передаче
- API-шлюз: Завершение TLS на границе, многомерное ограничение скорости (RPM против ITPM против OTPM)
- Классификаторы безопасности: Что запускается до и после модели, почему инъекция промптов структурно не решена
- Сборка контекста: Что на самом деле попадает в контекстное окно (это не только ваши сообщения)
- Токенизация: Почему модели не могут считать буквы, почему важны начальные пробелы, как специальные токены расходуют бюджет
- KV-кэш и кэширование префиксов: Расчёты памяти GQA против MHA, PagedAttention, процент попаданий в кэш как рычаг затрат
- Предзаполнение против декодирования: Почему они ограничены по-разному (вычисления против пропускной способности памяти)
- Конвейер выборки: Полный конвейер логитов по порядку — штраф за повторение, температура, top-k, top-p, softmax, выборка
- Потоковая передача: Разбор TTFT, парсинг событий SSE, инкрементальный рендеринг markdown
- Использование инструментов и агентские циклы: Параллельные вызовы инструментов, повторное появление инъекции промптов в результатах инструментов
- Биллинг и наблюдаемость: TTFT против TPOT, расчёты стоимости кэширования, что инструментировать
Детали документа
Документ предназначен для инженеров, которые уже понимают трансформеры и хотят увидеть, как на самом деле работают производственные системы. Он выпущен под лицензией CC0, и вклад приветствуется. Автор отмечает несколько неохваченных подсистем внизу, включая спекулятивное декодирование, мультимодальные системы и координацию множественных агентов.
Репозиторий был создан для устранения разрыва между объяснениями высокого уровня «трансформеры — это магия» и академическими статьями, которые не связывают концепции с поведением производственных систем.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Запуск OpenClaw локально с помощью Ollama, чтобы избежать затрат на API
Пользователь Reddit делится своим опытом перехода с API-версии OpenClaw на локальный запуск с помощью Ollama, что позволило исключить расходы на API, сохранив при этом рабочие процессы. Он создал пошаговое видео-руководство по установке.

Легко записывайте транскрипции Google Meet и Teams с помощью OpenClaw — Руководство по навыкам и настройке
Интеграция OpenClaw в Google Meet и Microsoft Teams предоставляет бесшовные возможности транскрипции. Узнайте, как настроить и оптимизировать этот процесс для повышения эффективности рабочего процесса.

Практические решения для повышения надёжности OpenClaw
Разработчик делится восемью конкретными техниками, которые улучшили его настройку OpenClaw, включая трёхуровневую систему памяти с ежедневными логами и графом знаний, управление активационными баллами и принудительное применение правил через файлы.

Максимизация возможностей ИИ-агентов в OpenClaw
Искусственный интеллект OpenClaw можно оптимизировать, выбрав нужную модель и предоставив конкретный контекст системы. Модели Qwen отлично справляются с использованием инструментов, что критически важно для автономных рабочих процессов.