종단 간 LLM 스택 추적: 키 입력부터 스트리밍된 토큰까지

✍️ OpenClawRadar📅 게시일: March 19, 2026🔗 Source
종단 간 LLM 스택 추적: 키 입력부터 스트리밍된 토큰까지
Ad

소프트웨어 엔지니어가 Claude나 ChatGPT 같은 LLM에 프롬프트를 보낼 때 스택의 모든 계층에서 정확히 어떤 일이 일어나는지 추적하는 상세한 기술 문서를 공개했습니다. 브라우저 탐색을 위한 고전적인 '무슨 일이 일어나는가' 저장소에서 영감을 받은 이 문서는 LLM 채팅 상호작용에 대한 프로덕션 시스템 관점을 제공합니다.

문서가 다루는 내용

문서는 프로덕션 순서에 따른 전체 여정을 따라갑니다:

  • 클라이언트 측: WASM 토크나이저를 통한 실시간 토큰 카운팅, IME 조합 이벤트, 낙관적 UI 렌더링
  • 네트워크: 채팅에서 WebSockets보다 SSE가 우세한 이유, 스트리밍에서 UTF-8 경계 문제
  • API 게이트웨이: 엣지 TLS 종료, 다차원 속도 제한 (RPM vs ITPM vs OTPM)
  • 안전 분류기: 모델 전후로 실행되는 것, 프롬프트 인젝션이 구조적으로 해결되지 않은 이유
  • 컨텍스트 어셈블리: 컨텍스트 윈도우에 실제로 들어가는 것 (메시지뿐만이 아님)
  • 토큰화: 모델이 글자를 셀 수 없는 이유, 선행 공백이 중요한 이유, 특수 토큰이 예산을 소비하는 방식
  • KV 캐시와 프리픽스 캐싱: GQA vs MHA 메모리 수학, PagedAttention, 비용 조절 수단으로서의 캐시 적중률
  • 프리필 vs 디코드: 서로 다른 병목 현상이 발생하는 이유 (계산 vs 메모리 대역폭)
  • 샘플링 파이프라인: 전체 로짓 파이프라인 순서 — 반복 패널티, 온도, 상위-k, 상위-p, 소프트맥스, 샘플
  • 스트리밍: TTFT 분석, SSE 이벤트 파싱, 점진적 마크다운 렌더링
  • 도구 사용과 에이전트 루프: 병렬 도구 호출, 도구 결과에서 재표면화되는 프롬프트 인젝션
  • 청구와 관찰 가능성: TTFT vs TPOT, 캐시 가격 수학, 계측할 대상
Ad

문서 세부사항

이 문서는 이미 트랜스포머를 이해하고 프로덕션 시스템이 실제로 어떻게 작동하는지 보고 싶은 엔지니어를 대상으로 합니다. CC0 라이선스로 공개되었으며 기여를 환영합니다. 저자는 하단에 추측 디코딩, 멀티모달 시스템, 다중 에이전트 조정 등 다루지 않은 여러 하위 시스템을 언급했습니다.

이 저장소는 고수준의 '트랜스포머는 마법이다' 설명과 개념을 프로덕션 시스템 동작과 연결하지 않는 학술 논문 사이의 격차를 해소하기 위해 만들어졌습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

OpenRouter에서 무료 OpenClaw 사용을 위해 Qwen 3.6 Plus Preview를 설정하는 방법
Guides

OpenRouter에서 무료 OpenClaw 사용을 위해 Qwen 3.6 Plus Preview를 설정하는 방법

Qwen 3.6 Plus Preview는 현재 OpenRouter에서 100만 토큰 컨텍스트 윈도우를 제공하며 무료로 이용 가능하여 AI 에이전트 작업에 적합합니다. 설정 과정은 OpenRouter 계정 생성, OpenClaw에 제공자 추가, 모델 구성으로 이루어집니다.

OpenClawRadar
비개발자를 위한 Windows 11에서 OpenClaw 설치 장애물
Guides

비개발자를 위한 Windows 11에서 OpenClaw 설치 장애물

취미로 이것저것 만지는 사람이 200달러짜리 미니 PC에 Windows 11을 설치한 후 OpenClaw를 설치할 때 마주친 세 가지 구체적인 장애물을 설명합니다. 여기에는 PowerShell 실행 정책, Windows Defender 차단, Node.js 및 Git과 같은 필수 구성 요소 누락이 포함됩니다.

OpenClawRadar
vLLM 설정 및 320GB VRAM을 갖춘 10x NVIDIA V100 서버에서의 테스트
Guides

vLLM 설정 및 320GB VRAM을 갖춘 10x NVIDIA V100 서버에서의 테스트

법률 업무를 위한 로컬 AI 서버를 구축한 변호사가 10x Tesla V100 SXM2 32GB GPU에서의 vLLM 테스트 결과를 공유하며, Volta 아키텍처에서 작동하는 것(FP16 비양자화, bitsandbytes 4비트)과 작동하지 않는 것(GPTQ, AWQ, FlashAttention2)을 상세히 설명합니다.

OpenClawRadar
AI 에이전트를 효과적으로 이끄는 관리 프레임워크
Guides

AI 에이전트를 효과적으로 이끄는 관리 프레임워크

전 백엔드 리드는 AI 에이전트 생산성의 정체기를 지적하고 사이버네틱스, 정보 이론, 경영학이라는 세 가지 학문에 기반한 프레임워크를 제안합니다. 이 프레임워크는 '캡틴'과 '아키텍트'라는 두 가지 운영 모드를 상세히 설명합니다.

OpenClawRadar