Сквозная трассировка стека LLM: от нажатия до токена

Программист опубликовал подробный технический документ, в котором точно описывается, что происходит на каждом уровне стека при отправке промпта в LLM, такую как Claude или ChatGPT. Вдохновлённый классическим репозиторием «что происходит, когда» для навигации в браузере, этот документ даёт представление о работе чат-взаимодействий с LLM с точки зрения производственных систем.

Что охватывает документ

Документ следует полному пути в порядке производства:

Клиентская сторона: Подсчёт токенов в реальном времени через WASM-токенизаторы, события композиции IME, оптимистичный рендеринг интерфейса
Сеть: Почему SSE выигрывает у WebSockets для чата, проблема границ UTF-8 при потоковой передаче
API-шлюз: Завершение TLS на границе, многомерное ограничение скорости (RPM против ITPM против OTPM)
Классификаторы безопасности: Что запускается до и после модели, почему инъекция промптов структурно не решена
Сборка контекста: Что на самом деле попадает в контекстное окно (это не только ваши сообщения)
Токенизация: Почему модели не могут считать буквы, почему важны начальные пробелы, как специальные токены расходуют бюджет
KV-кэш и кэширование префиксов: Расчёты памяти GQA против MHA, PagedAttention, процент попаданий в кэш как рычаг затрат
Предзаполнение против декодирования: Почему они ограничены по-разному (вычисления против пропускной способности памяти)
Конвейер выборки: Полный конвейер логитов по порядку — штраф за повторение, температура, top-k, top-p, softmax, выборка
Потоковая передача: Разбор TTFT, парсинг событий SSE, инкрементальный рендеринг markdown
Использование инструментов и агентские циклы: Параллельные вызовы инструментов, повторное появление инъекции промптов в результатах инструментов
Биллинг и наблюдаемость: TTFT против TPOT, расчёты стоимости кэширования, что инструментировать

Детали документа

Документ предназначен для инженеров, которые уже понимают трансформеры и хотят увидеть, как на самом деле работают производственные системы. Он выпущен под лицензией CC0, и вклад приветствуется. Автор отмечает несколько неохваченных подсистем внизу, включая спекулятивное декодирование, мультимодальные системы и координацию множественных агентов.

Репозиторий был создан для устранения разрыва между объяснениями высокого уровня «трансформеры — это магия» и академическими статьями, которые не связывают концепции с поведением производственных систем.

📖 Read the full source: r/LocalLLaMA

Сквозная трассировка стека LLM: от нажатия клавиши до потокового токена

Что охватывает документ

Детали документа

👀 Смотрите также

OpenClaw Ollama Cloud：针对缺失模型和医生删除错误的三层修复

Визуализация рабочего процесса Claude Code объясняет иерархию памяти и систему навыков.

Практические стратегии кодирования ИИ, основанные на 1000 часах опыта

Создание полностью локального мультиагентного ассистента с OpenClaw и Ollama