Сквозная трассировка стека LLM: от нажатия клавиши до потокового токена

✍️ OpenClawRadar📅 Опубликовано: 19 марта 2026 г.🔗 Source
Сквозная трассировка стека LLM: от нажатия клавиши до потокового токена
Ad

Программист опубликовал подробный технический документ, в котором точно описывается, что происходит на каждом уровне стека при отправке промпта в LLM, такую как Claude или ChatGPT. Вдохновлённый классическим репозиторием «что происходит, когда» для навигации в браузере, этот документ даёт представление о работе чат-взаимодействий с LLM с точки зрения производственных систем.

Что охватывает документ

Документ следует полному пути в порядке производства:

  • Клиентская сторона: Подсчёт токенов в реальном времени через WASM-токенизаторы, события композиции IME, оптимистичный рендеринг интерфейса
  • Сеть: Почему SSE выигрывает у WebSockets для чата, проблема границ UTF-8 при потоковой передаче
  • API-шлюз: Завершение TLS на границе, многомерное ограничение скорости (RPM против ITPM против OTPM)
  • Классификаторы безопасности: Что запускается до и после модели, почему инъекция промптов структурно не решена
  • Сборка контекста: Что на самом деле попадает в контекстное окно (это не только ваши сообщения)
  • Токенизация: Почему модели не могут считать буквы, почему важны начальные пробелы, как специальные токены расходуют бюджет
  • KV-кэш и кэширование префиксов: Расчёты памяти GQA против MHA, PagedAttention, процент попаданий в кэш как рычаг затрат
  • Предзаполнение против декодирования: Почему они ограничены по-разному (вычисления против пропускной способности памяти)
  • Конвейер выборки: Полный конвейер логитов по порядку — штраф за повторение, температура, top-k, top-p, softmax, выборка
  • Потоковая передача: Разбор TTFT, парсинг событий SSE, инкрементальный рендеринг markdown
  • Использование инструментов и агентские циклы: Параллельные вызовы инструментов, повторное появление инъекции промптов в результатах инструментов
  • Биллинг и наблюдаемость: TTFT против TPOT, расчёты стоимости кэширования, что инструментировать
Ad

Детали документа

Документ предназначен для инженеров, которые уже понимают трансформеры и хотят увидеть, как на самом деле работают производственные системы. Он выпущен под лицензией CC0, и вклад приветствуется. Автор отмечает несколько неохваченных подсистем внизу, включая спекулятивное декодирование, мультимодальные системы и координацию множественных агентов.

Репозиторий был создан для устранения разрыва между объяснениями высокого уровня «трансформеры — это магия» и академическими статьями, которые не связывают концепции с поведением производственных систем.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Запуск OpenClaw локально с помощью Ollama, чтобы избежать затрат на API
Гайды

Запуск OpenClaw локально с помощью Ollama, чтобы избежать затрат на API

Пользователь Reddit делится своим опытом перехода с API-версии OpenClaw на локальный запуск с помощью Ollama, что позволило исключить расходы на API, сохранив при этом рабочие процессы. Он создал пошаговое видео-руководство по установке.

OpenClawRadar
Легко записывайте транскрипции Google Meet и Teams с помощью OpenClaw — Руководство по навыкам и настройке
Гайды

Легко записывайте транскрипции Google Meet и Teams с помощью OpenClaw — Руководство по навыкам и настройке

Интеграция OpenClaw в Google Meet и Microsoft Teams предоставляет бесшовные возможности транскрипции. Узнайте, как настроить и оптимизировать этот процесс для повышения эффективности рабочего процесса.

OpenClawRadar
Практические решения для повышения надёжности OpenClaw
Гайды

Практические решения для повышения надёжности OpenClaw

Разработчик делится восемью конкретными техниками, которые улучшили его настройку OpenClaw, включая трёхуровневую систему памяти с ежедневными логами и графом знаний, управление активационными баллами и принудительное применение правил через файлы.

OpenClawRadar
Максимизация возможностей ИИ-агентов в OpenClaw
Гайды

Максимизация возможностей ИИ-агентов в OpenClaw

Искусственный интеллект OpenClaw можно оптимизировать, выбрав нужную модель и предоставив конкретный контекст системы. Модели Qwen отлично справляются с использованием инструментов, что критически важно для автономных рабочих процессов.

OpenClawRadar