Trace de Pile LLM de Bout en Bout : Requête au Jeton

Un ingénieur logiciel a publié un document technique détaillé qui retrace précisément ce qui se passe à chaque couche de la pile lorsque vous envoyez une requête à un LLM comme Claude ou ChatGPT. Inspiré par le dépôt classique "what-happens-when" pour la navigation dans le navigateur, ce document offre une perspective des systèmes de production sur les interactions de chat avec les LLM.

Ce que le document couvre

Le document suit le parcours complet dans l'ordre de production :

Côté client : Comptage de tokens en direct via des tokenizers WASM, événements de composition IME, rendu d'interface utilisateur optimiste
Réseau : Pourquoi SSE l'emporte sur WebSockets pour le chat, problème des limites UTF-8 dans le streaming
Passerelle API : Terminaison TLS en périphérie, limitation de débit multidimensionnelle (RPM vs ITPM vs OTPM)
Classificateurs de sécurité : Ce qui s'exécute avant et après le modèle, pourquoi l'injection de requête est structurellement non résolue
Assemblage du contexte : Ce qui entre réellement dans la fenêtre de contexte (ce ne sont pas seulement vos messages)
Tokenisation : Pourquoi les modèles ne peuvent pas compter les lettres, pourquoi les espaces initiaux sont importants, comment les tokens spéciaux consomment le budget
Cache KV et cache de préfixe : Calculs de mémoire GQA vs MHA, PagedAttention, taux de réussite du cache comme levier de coût
Préremplissage vs décodage : Pourquoi ils sont limités différemment (calcul vs bande passante mémoire)
Pipeline d'échantillonnage : Le pipeline complet des logits dans l'ordre — pénalité de répétition, température, top-k, top-p, softmax, échantillon
Streaming : Analyse du TTFT, analyse des événements SSE, rendu markdown incrémental
Utilisation d'outils et boucles agentiques : Appels d'outils parallèles, réapparition de l'injection de requête dans les résultats des outils
Facturation et observabilité : TTFT vs TPOT, calculs de tarification du cache, ce qu'il faut instrumenter

Détails du document

Le document s'adresse aux ingénieurs qui comprennent déjà les transformers et souhaitent voir comment fonctionnent réellement les systèmes de production. Il est publié sous licence CC0, et les contributions sont les bienvenues. L'auteur note plusieurs sous-systèmes non couverts en bas, notamment le décodage spéculatif, les systèmes multimodaux et la coordination multi-agents.

Le dépôt a été créé pour combler l'écart entre les explications de haut niveau "les transformers sont magiques" et les articles académiques qui ne relient pas les concepts au comportement des systèmes de production.

📖 Read the full source: r/LocalLLaMA

Trace de la Pile LLM de Bout en Bout : De la Frappe au Jeton Diffusé en Continu

Ce que le document couvre

Détails du document

👀 See Also

Guide pour configurer OpenClaw sur un VPS Hostinger

Techniques pratiques pour réduire la dérive d'état dans les agents IA multi-étapes

OpenClaw : Votre aide-mémoire ultime et rapide

Recommandations de modèles de traduction locale pour les cartes graphiques avec 32 Go de VRAM