LLM 스택 추적: 키 입력부터 스트리밍 토큰까지 8단계

소프트웨어 엔지니어가 Claude나 ChatGPT 같은 LLM에 프롬프트를 보낼 때 스택의 모든 계층에서 정확히 어떤 일이 일어나는지 추적하는 상세한 기술 문서를 공개했습니다. 브라우저 탐색을 위한 고전적인 '무슨 일이 일어나는가' 저장소에서 영감을 받은 이 문서는 LLM 채팅 상호작용에 대한 프로덕션 시스템 관점을 제공합니다.

문서가 다루는 내용

문서는 프로덕션 순서에 따른 전체 여정을 따라갑니다:

클라이언트 측: WASM 토크나이저를 통한 실시간 토큰 카운팅, IME 조합 이벤트, 낙관적 UI 렌더링
네트워크: 채팅에서 WebSockets보다 SSE가 우세한 이유, 스트리밍에서 UTF-8 경계 문제
API 게이트웨이: 엣지 TLS 종료, 다차원 속도 제한 (RPM vs ITPM vs OTPM)
안전 분류기: 모델 전후로 실행되는 것, 프롬프트 인젝션이 구조적으로 해결되지 않은 이유
컨텍스트 어셈블리: 컨텍스트 윈도우에 실제로 들어가는 것 (메시지뿐만이 아님)
토큰화: 모델이 글자를 셀 수 없는 이유, 선행 공백이 중요한 이유, 특수 토큰이 예산을 소비하는 방식
KV 캐시와 프리픽스 캐싱: GQA vs MHA 메모리 수학, PagedAttention, 비용 조절 수단으로서의 캐시 적중률
프리필 vs 디코드: 서로 다른 병목 현상이 발생하는 이유 (계산 vs 메모리 대역폭)
샘플링 파이프라인: 전체 로짓 파이프라인 순서 — 반복 패널티, 온도, 상위-k, 상위-p, 소프트맥스, 샘플
스트리밍: TTFT 분석, SSE 이벤트 파싱, 점진적 마크다운 렌더링
도구 사용과 에이전트 루프: 병렬 도구 호출, 도구 결과에서 재표면화되는 프롬프트 인젝션
청구와 관찰 가능성: TTFT vs TPOT, 캐시 가격 수학, 계측할 대상

문서 세부사항

이 문서는 이미 트랜스포머를 이해하고 프로덕션 시스템이 실제로 어떻게 작동하는지 보고 싶은 엔지니어를 대상으로 합니다. CC0 라이선스로 공개되었으며 기여를 환영합니다. 저자는 하단에 추측 디코딩, 멀티모달 시스템, 다중 에이전트 조정 등 다루지 않은 여러 하위 시스템을 언급했습니다.

이 저장소는 고수준의 '트랜스포머는 마법이다' 설명과 개념을 프로덕션 시스템 동작과 연결하지 않는 학술 논문 사이의 격차를 해소하기 위해 만들어졌습니다.

📖 Read the full source: r/LocalLLaMA

종단 간 LLM 스택 추적: 키 입력부터 스트리밍된 토큰까지

문서가 다루는 내용

문서 세부사항

👀 See Also

CLAUDE.md 헌법: 개인 AI 에이전트 구축 — 파트 II 파일 둘러보기

6GB VRAM에서 Qwen3.6 27B 및 35B를 ik_llama로 실행하기: 실용 설정 및 벤치마크

플로우 맵: 더 빠른 샘플링을 위한 확산 모델의 적분 학습

Qwen3.5-397B MoE, M1 Ultra에서 페이지드 전문가 로딩으로 14GB RAM에서 실행