LLM-Stapelverfolgung: Vom Tastendruck zum gestreamten Token

Ein Softwareingenieur hat ein detailliertes technisches Dokument veröffentlicht, das genau nachzeichnet, was auf jeder Ebene des Stacks passiert, wenn man eine Eingabeaufforderung an ein LLM wie Claude oder ChatGPT sendet. Inspiriert vom klassischen "what-happens-when"-Repository für Browser-Navigation bietet dieses Dokument eine Produktionssystem-Perspektive auf LLM-Chat-Interaktionen.

Was das Dokument abdeckt

Das Dokument folgt der gesamten Reise in Produktionsreihenfolge:

Clientseitig: Live-Token-Zählung via WASM-Tokenizern, IME-Kompositionsereignisse, optimistisches UI-Rendering
Netzwerk: Warum SSE gegenüber WebSockets für Chat gewinnt, UTF-8-Grenzproblem beim Streaming
API-Gateway: Edge-TLS-Terminierung, mehrdimensionale Ratenbegrenzung (RPM vs ITPM vs OTPM)
Sicherheitsklassifizierer: Was vor und nach dem Modell läuft, warum Prompt-Injection strukturell ungelöst ist
Kontextzusammenstellung: Was tatsächlich ins Kontextfenster eingeht (es sind nicht nur Ihre Nachrichten)
Tokenisierung: Warum Modelle keine Buchstaben zählen können, warum führende Leerzeichen wichtig sind, wie Sonder-Tokens Budget verbrauchen
KV-Cache und Präfix-Caching: GQA vs MHA-Speicherberechnung, PagedAttention, Cache-Trefferquote als Kostenhebel
Prefill vs Decode: Warum sie unterschiedlich limitiert sind (Rechenleistung vs Speicherbandbreite)
Sampling-Pipeline: Die vollständige Logit-Pipeline in Reihenfolge – Wiederholungsstrafe, Temperatur, Top-k, Top-p, Softmax, Sample
Streaming: TTFT-Aufschlüsselung, SSE-Ereignisparsing, inkrementelles Markdown-Rendering
Tool-Nutzung und agentische Schleifen: Parallele Tool-Aufrufe, Wiederauftreten von Prompt-Injection in Tool-Ergebnissen
Abrechnung und Beobachtbarkeit: TTFT vs TPOT, Cache-Preisberechnung, was instrumentiert werden sollte

Dokumentdetails

Das Dokument richtet sich an Ingenieure, die bereits Transformer verstehen und sehen möchten, wie Produktionssysteme tatsächlich funktionieren. Es ist unter CC0-Lizenz veröffentlicht und Beiträge sind willkommen. Der Autor listet am Ende mehrere nicht abgedeckte Subsysteme auf, darunter spekulatives Decoding, multimodale Systeme und Multi-Agent-Koordination.

Das Repository wurde erstellt, um die Lücke zwischen hochrangigen "Transformer sind Magie"-Erklärungen und akademischen Papieren zu schließen, die Konzepte nicht mit Produktionssystemverhalten verbinden.

📖 Read the full source: r/LocalLLaMA

End-to-End-LLM-Stapelverfolgung: Vom Tastendruck zum gestreamten Token

Was das Dokument abdeckt

Dokumentdetails

👀 Siehe auch

Behebung der Fehler 'Navigate Unsupported' und Browser-Plugin bei selbst gehostetem OpenClaw auf Docker

Strukturierter KI-Arbeitsablauf mit phasenbasierten Befehlen zur Reduzierung von Nacharbeit

Meistere OpenClaw auf deinem Android-Smartphone: Ein umfassendes Tutorial

Benutzerdefinierte Fähigkeiten für Claude Co-Work erstellen: Best Practices und Formate