LLMスタック完全トレース：プロンプトからストリーミングトークンまで

ソフトウェアエンジニアが、ClaudeやChatGPTのようなLLMにプロンプトを送信した際にスタックの各レイヤーで正確に何が起こるかを追跡した詳細な技術文書を公開しました。ブラウザナビゲーションの古典的な「what-happens-when」リポジトリに触発され、この文書はLLMチャットインタラクションに対するプロダクションシステムの視点を提供します。

文書の内容

この文書はプロダクションの順序に沿って全体の流れを追っています：

クライアント側： WASMトークナイザーによるライブトークンカウント、IME構成イベント、楽観的UIレンダリング
ネットワーク： チャットにおけるSSEがWebSocketより優れる理由、ストリーミングにおけるUTF-8境界問題
APIゲートウェイ： エッジTLS終端、多次元レート制限（RPM対ITPM対OTPM）
安全性分類器： モデルの前後に実行されるもの、プロンプトインジェクションが構造的に未解決である理由
コンテキスト組み立て： コンテキストウィンドウに実際に入るもの（単なるメッセージだけではない）
トークン化： モデルが文字を数えられない理由、先頭スペースが重要な理由、特殊トークンが予算を消費する仕組み
KVキャッシュとプレフィックスキャッシング： GQA対MHAメモリ計算、PagedAttention、コストレバーとしてのキャッシュヒット率
プリフィル対デコード： ボトルネックが異なる理由（計算対メモリ帯域幅）
サンプリングパイプライン： 完全なロジットパイプラインの順序 — 反復ペナルティ、温度、top-k、top-p、ソフトマックス、サンプリング
ストリーミング： TTFT内訳、SSEイベント解析、インクリメンタルマークダウンレンダリング
ツール使用とエージェントループ： 並列ツール呼び出し、ツール結果で再浮上するプロンプトインジェクション
課金と可観測性： TTFT対TPOT、キャッシュ価格計算、計装すべき項目

文書の詳細

この文書は、トランスフォーマーを既に理解しているエンジニアが、プロダクションシステムが実際にどのように機能するかを確認したい人を対象としています。CC0ライセンスで公開されており、貢献を歓迎しています。著者は、推測的デコード、マルチモーダルシステム、マルチエージェント調整など、カバーされていないいくつかのサブシステムを末尾に記載しています。

このリポジトリは、高レベルの「トランスフォーマーは魔法」という説明と、概念をプロダクションシステムの動作に結びつけない学術論文との間のギャップを埋めるために作成されました。

📖 Read the full source: r/LocalLLaMA

エンドツーエンドLLMスタックトレース：キーストロークからストリーミングトークンまで

文書の内容

文書の詳細

👀 See Also

OpenCLAWメモリの実際の仕組み：エージェントの「忘却」問題を解決する

OpenCLAWメモリの実際の仕組み：エージェントの「忘れ」を修正する

Claude Code v2.1.36：Opus 4.6で高速モードが利用可能になりました

Claude CodeをOllama経由でルーティングし、費用を約90%削減