Trace de la Pile LLM de Bout en Bout : De la Frappe au Jeton Diffusé en Continu

✍️ OpenClawRadar📅 Publié: March 19, 2026🔗 Source
Trace de la Pile LLM de Bout en Bout : De la Frappe au Jeton Diffusé en Continu
Ad

Un ingénieur logiciel a publié un document technique détaillé qui retrace précisément ce qui se passe à chaque couche de la pile lorsque vous envoyez une requête à un LLM comme Claude ou ChatGPT. Inspiré par le dépôt classique "what-happens-when" pour la navigation dans le navigateur, ce document offre une perspective des systèmes de production sur les interactions de chat avec les LLM.

Ce que le document couvre

Le document suit le parcours complet dans l'ordre de production :

  • Côté client : Comptage de tokens en direct via des tokenizers WASM, événements de composition IME, rendu d'interface utilisateur optimiste
  • Réseau : Pourquoi SSE l'emporte sur WebSockets pour le chat, problème des limites UTF-8 dans le streaming
  • Passerelle API : Terminaison TLS en périphérie, limitation de débit multidimensionnelle (RPM vs ITPM vs OTPM)
  • Classificateurs de sécurité : Ce qui s'exécute avant et après le modèle, pourquoi l'injection de requête est structurellement non résolue
  • Assemblage du contexte : Ce qui entre réellement dans la fenêtre de contexte (ce ne sont pas seulement vos messages)
  • Tokenisation : Pourquoi les modèles ne peuvent pas compter les lettres, pourquoi les espaces initiaux sont importants, comment les tokens spéciaux consomment le budget
  • Cache KV et cache de préfixe : Calculs de mémoire GQA vs MHA, PagedAttention, taux de réussite du cache comme levier de coût
  • Préremplissage vs décodage : Pourquoi ils sont limités différemment (calcul vs bande passante mémoire)
  • Pipeline d'échantillonnage : Le pipeline complet des logits dans l'ordre — pénalité de répétition, température, top-k, top-p, softmax, échantillon
  • Streaming : Analyse du TTFT, analyse des événements SSE, rendu markdown incrémental
  • Utilisation d'outils et boucles agentiques : Appels d'outils parallèles, réapparition de l'injection de requête dans les résultats des outils
  • Facturation et observabilité : TTFT vs TPOT, calculs de tarification du cache, ce qu'il faut instrumenter
Ad

Détails du document

Le document s'adresse aux ingénieurs qui comprennent déjà les transformers et souhaitent voir comment fonctionnent réellement les systèmes de production. Il est publié sous licence CC0, et les contributions sont les bienvenues. L'auteur note plusieurs sous-systèmes non couverts en bas, notamment le décodage spéculatif, les systèmes multimodaux et la coordination multi-agents.

Le dépôt a été créé pour combler l'écart entre les explications de haut niveau "les transformers sont magiques" et les articles académiques qui ne relient pas les concepts au comportement des systèmes de production.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Utilisateur de Reddit partage une configuration pratique de Claude pour une assistance IA cohérente en programmation
Guides

Utilisateur de Reddit partage une configuration pratique de Claude pour une assistance IA cohérente en programmation

Un développeur décrit le passage de prompts uniques à des fichiers de contexte séparés (about-me.md, my-voice.md, my-rules.md) et la mise en œuvre d'un flux de travail structuré où Claude lit le contexte, pose des questions, crée des plans, puis exécute des tâches.

OpenClawRadar
Correction de l'invalidation du cache KV de Claude Code avec des backends locaux
Guides

Correction de l'invalidation du cache KV de Claude Code avec des backends locaux

Les versions 2.1.36+ de Claude Code injectent des en-têtes de télémétrie dynamique et des mises à jour de l'état git dans chaque requête, rompant la correspondance par préfixe et forçant le retraitement complet des prompts système de plus de 20 000 tokens sur les backends locaux comme llama.cpp. Un correctif de configuration dans ~/.claude/settings.json peut réduire le traitement de plus de 60 secondes à environ 4 secondes.

OpenClawRadar
Accéder aux webcams USB dans WSL2 pour la détection de mouvement locale
Guides

Accéder aux webcams USB dans WSL2 pour la détection de mouvement locale

Un développeur explique comment utiliser usbipd-win pour passer des webcams USB de Windows à WSL2, permettant une détection de mouvement locale avec OpenCV sans dépendances cloud.

OpenClawRadar
Correction de l'erreur de l'extension Claude VS Code : 'commande claude-vscode.editor.openLast introuvable'
Guides

Correction de l'erreur de l'extension Claude VS Code : 'commande claude-vscode.editor.openLast introuvable'

La version 2.1.51 de l'extension Claude pour VS Code contient un bug critique qui provoque l'erreur 'commande claude-vscode.editor.openLast introuvable'. La solution de contournement consiste à revenir à la version 2.1.49.

OpenClawRadar