End-to-End-LLM-Stapelverfolgung: Vom Tastendruck zum gestreamten Token

✍️ OpenClawRadar📅 Veröffentlicht: 19. März 2026🔗 Source
End-to-End-LLM-Stapelverfolgung: Vom Tastendruck zum gestreamten Token
Ad

Ein Softwareingenieur hat ein detailliertes technisches Dokument veröffentlicht, das genau nachzeichnet, was auf jeder Ebene des Stacks passiert, wenn man eine Eingabeaufforderung an ein LLM wie Claude oder ChatGPT sendet. Inspiriert vom klassischen "what-happens-when"-Repository für Browser-Navigation bietet dieses Dokument eine Produktionssystem-Perspektive auf LLM-Chat-Interaktionen.

Was das Dokument abdeckt

Das Dokument folgt der gesamten Reise in Produktionsreihenfolge:

  • Clientseitig: Live-Token-Zählung via WASM-Tokenizern, IME-Kompositionsereignisse, optimistisches UI-Rendering
  • Netzwerk: Warum SSE gegenüber WebSockets für Chat gewinnt, UTF-8-Grenzproblem beim Streaming
  • API-Gateway: Edge-TLS-Terminierung, mehrdimensionale Ratenbegrenzung (RPM vs ITPM vs OTPM)
  • Sicherheitsklassifizierer: Was vor und nach dem Modell läuft, warum Prompt-Injection strukturell ungelöst ist
  • Kontextzusammenstellung: Was tatsächlich ins Kontextfenster eingeht (es sind nicht nur Ihre Nachrichten)
  • Tokenisierung: Warum Modelle keine Buchstaben zählen können, warum führende Leerzeichen wichtig sind, wie Sonder-Tokens Budget verbrauchen
  • KV-Cache und Präfix-Caching: GQA vs MHA-Speicherberechnung, PagedAttention, Cache-Trefferquote als Kostenhebel
  • Prefill vs Decode: Warum sie unterschiedlich limitiert sind (Rechenleistung vs Speicherbandbreite)
  • Sampling-Pipeline: Die vollständige Logit-Pipeline in Reihenfolge – Wiederholungsstrafe, Temperatur, Top-k, Top-p, Softmax, Sample
  • Streaming: TTFT-Aufschlüsselung, SSE-Ereignisparsing, inkrementelles Markdown-Rendering
  • Tool-Nutzung und agentische Schleifen: Parallele Tool-Aufrufe, Wiederauftreten von Prompt-Injection in Tool-Ergebnissen
  • Abrechnung und Beobachtbarkeit: TTFT vs TPOT, Cache-Preisberechnung, was instrumentiert werden sollte
Ad

Dokumentdetails

Das Dokument richtet sich an Ingenieure, die bereits Transformer verstehen und sehen möchten, wie Produktionssysteme tatsächlich funktionieren. Es ist unter CC0-Lizenz veröffentlicht und Beiträge sind willkommen. Der Autor listet am Ende mehrere nicht abgedeckte Subsysteme auf, darunter spekulatives Decoding, multimodale Systeme und Multi-Agent-Koordination.

Das Repository wurde erstellt, um die Lücke zwischen hochrangigen "Transformer sind Magie"-Erklärungen und akademischen Papieren zu schließen, die Konzepte nicht mit Produktionssystemverhalten verbinden.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch