エンドツーエンドLLMスタックトレース:キーストロークからストリーミングトークンまで

ソフトウェアエンジニアが、ClaudeやChatGPTのようなLLMにプロンプトを送信した際にスタックの各レイヤーで正確に何が起こるかを追跡した詳細な技術文書を公開しました。ブラウザナビゲーションの古典的な「what-happens-when」リポジトリに触発され、この文書はLLMチャットインタラクションに対するプロダクションシステムの視点を提供します。
文書の内容
この文書はプロダクションの順序に沿って全体の流れを追っています:
- クライアント側: WASMトークナイザーによるライブトークンカウント、IME構成イベント、楽観的UIレンダリング
- ネットワーク: チャットにおけるSSEがWebSocketより優れる理由、ストリーミングにおけるUTF-8境界問題
- APIゲートウェイ: エッジTLS終端、多次元レート制限(RPM対ITPM対OTPM)
- 安全性分類器: モデルの前後に実行されるもの、プロンプトインジェクションが構造的に未解決である理由
- コンテキスト組み立て: コンテキストウィンドウに実際に入るもの(単なるメッセージだけではない)
- トークン化: モデルが文字を数えられない理由、先頭スペースが重要な理由、特殊トークンが予算を消費する仕組み
- KVキャッシュとプレフィックスキャッシング: GQA対MHAメモリ計算、PagedAttention、コストレバーとしてのキャッシュヒット率
- プリフィル対デコード: ボトルネックが異なる理由(計算対メモリ帯域幅)
- サンプリングパイプライン: 完全なロジットパイプラインの順序 — 反復ペナルティ、温度、top-k、top-p、ソフトマックス、サンプリング
- ストリーミング: TTFT内訳、SSEイベント解析、インクリメンタルマークダウンレンダリング
- ツール使用とエージェントループ: 並列ツール呼び出し、ツール結果で再浮上するプロンプトインジェクション
- 課金と可観測性: TTFT対TPOT、キャッシュ価格計算、計装すべき項目
文書の詳細
この文書は、トランスフォーマーを既に理解しているエンジニアが、プロダクションシステムが実際にどのように機能するかを確認したい人を対象としています。CC0ライセンスで公開されており、貢献を歓迎しています。著者は、推測的デコード、マルチモーダルシステム、マルチエージェント調整など、カバーされていないいくつかのサブシステムを末尾に記載しています。
このリポジトリは、高レベルの「トランスフォーマーは魔法」という説明と、概念をプロダクションシステムの動作に結びつけない学術論文との間のギャップを埋めるために作成されました。
📖 Read the full source: r/LocalLLaMA
👀 See Also

OpenCLAWメモリの実際の仕組み:エージェントの「忘却」問題を解決する
OpenCLAWエージェントは会話間で永続的なメモリを持ちません。毎回、SOUL.md、USER.md、MEMORY.mdなどのファイルからコンテキストを再構築します。一般的な「忘れる」問題は、古いセッション、構造化されていないメモリファイル、重要な情報をチャット履歴ではなく永続的なファイルに保存していないことから生じます。

OpenCLAWメモリの実際の仕組み:エージェントの「忘れ」を修正する
OpenCLAWエージェントは会話間で永続的なメモリを持たず、各セッションでSOUL.md、USER.md、MEMORY.mdなどのファイルからコンテキストを再構築します。一般的な「忘れる」問題は、セッションの肥大化、構造化されていないメモリファイル、チャット履歴と永続ストレージの混同に起因します。

Claude Code v2.1.36:Opus 4.6で高速モードが利用可能になりました
AnthropicはClaude Codeバージョン2.1.36をリリースし、Opus 4.6モデルに高速モードサポートを追加しました。これにより、コード生成と分析が大幅に高速化されます。

Claude CodeをOllama経由でルーティングし、費用を約90%削減
Claude DesktopとOllama対応のClaude Codeを連携:戦略的な作業はAnthropicに任せ、負荷の高いタスクはGemma、Qwen、DeepSeekなどの無料オープンソースモデルで実行。セットアップの約98%を自動化するコピペ用プロンプト付き。