End-to-End-LLM-Stapelverfolgung: Vom Tastendruck zum gestreamten Token

Ein Softwareingenieur hat ein detailliertes technisches Dokument veröffentlicht, das genau nachzeichnet, was auf jeder Ebene des Stacks passiert, wenn man eine Eingabeaufforderung an ein LLM wie Claude oder ChatGPT sendet. Inspiriert vom klassischen "what-happens-when"-Repository für Browser-Navigation bietet dieses Dokument eine Produktionssystem-Perspektive auf LLM-Chat-Interaktionen.
Was das Dokument abdeckt
Das Dokument folgt der gesamten Reise in Produktionsreihenfolge:
- Clientseitig: Live-Token-Zählung via WASM-Tokenizern, IME-Kompositionsereignisse, optimistisches UI-Rendering
- Netzwerk: Warum SSE gegenüber WebSockets für Chat gewinnt, UTF-8-Grenzproblem beim Streaming
- API-Gateway: Edge-TLS-Terminierung, mehrdimensionale Ratenbegrenzung (RPM vs ITPM vs OTPM)
- Sicherheitsklassifizierer: Was vor und nach dem Modell läuft, warum Prompt-Injection strukturell ungelöst ist
- Kontextzusammenstellung: Was tatsächlich ins Kontextfenster eingeht (es sind nicht nur Ihre Nachrichten)
- Tokenisierung: Warum Modelle keine Buchstaben zählen können, warum führende Leerzeichen wichtig sind, wie Sonder-Tokens Budget verbrauchen
- KV-Cache und Präfix-Caching: GQA vs MHA-Speicherberechnung, PagedAttention, Cache-Trefferquote als Kostenhebel
- Prefill vs Decode: Warum sie unterschiedlich limitiert sind (Rechenleistung vs Speicherbandbreite)
- Sampling-Pipeline: Die vollständige Logit-Pipeline in Reihenfolge – Wiederholungsstrafe, Temperatur, Top-k, Top-p, Softmax, Sample
- Streaming: TTFT-Aufschlüsselung, SSE-Ereignisparsing, inkrementelles Markdown-Rendering
- Tool-Nutzung und agentische Schleifen: Parallele Tool-Aufrufe, Wiederauftreten von Prompt-Injection in Tool-Ergebnissen
- Abrechnung und Beobachtbarkeit: TTFT vs TPOT, Cache-Preisberechnung, was instrumentiert werden sollte
Dokumentdetails
Das Dokument richtet sich an Ingenieure, die bereits Transformer verstehen und sehen möchten, wie Produktionssysteme tatsächlich funktionieren. Es ist unter CC0-Lizenz veröffentlicht und Beiträge sind willkommen. Der Autor listet am Ende mehrere nicht abgedeckte Subsysteme auf, darunter spekulatives Decoding, multimodale Systeme und Multi-Agent-Koordination.
Das Repository wurde erstellt, um die Lücke zwischen hochrangigen "Transformer sind Magie"-Erklärungen und akademischen Papieren zu schließen, die Konzepte nicht mit Produktionssystemverhalten verbinden.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

OpenClaw-Installation auf MacBook Pro mit lokalem Homebrew und NVM
Ein Benutzer hat OpenClaw erfolgreich auf einem MacBook Pro installiert, und zwar mit einem Nicht-Administrator-Konto, lokalem Homebrew, NVM v0.40.4, Python 3.14.3 über pyenv, Node 24 und dem Qwen3.5-122B-A10B-MLX-vision-4.7-bit LLM über oMLX.

Was bricht, wenn man Codierungsagenten auf kleinen lokalen Modellen ausführt
Reale Fehlerpunkte aus dem Testen von Multi-Datei-Aufgaben an Sub-7B-Modellen: Markdown-Fences, Zuverlässigkeit strukturierter Ausgaben, Dateibearbeitungsfehler und Klassifizierung von Lese- vs. Schreibaktionen.

Häufige OpenClaw-Installationsfehler und wie man sie behebt
Ein Reddit-Beitrag fasst Lösungen für mehrere häufige OpenClaw-Installationsprobleme zusammen, darunter PATH-Konfiguration, Berechtigungsfehler, Node.js-Versionsanforderungen, TTY-Probleme und Plugin-Statusprobleme.

Qwen3.6 27B und 35B auf 6GB VRAM mit ik_llama ausführen: Praktische Konfigurationen und Benchmarks
Ein Nutzer teilt detaillierte ik_llama-Konfigurationen und Leistungszahlen zum Ausführen der Qwen3.6 27B- und 35B-A3B-Modelle auf einem RTX2060 Mobile (6 GB VRAM, 32 GB RAM) mit Prefill-Geschwindigkeiten von 40–100 t/s und Generation bis zu 11 t/s.