Rastreamento de LLM de Ponta a Ponta: Do Toque de Tecla ao Token

Um engenheiro de software publicou um documento técnico detalhado que rastreia exatamente o que acontece em cada camada da pilha quando você envia um prompt para um LLM como Claude ou ChatGPT. Inspirado pelo clássico repositório "o-que-acontece-quando" para navegação no navegador, este documento fornece uma perspectiva de sistemas de produção sobre interações de chat com LLMs.

O que o Documento Aborda

O documento segue a jornada completa na ordem de produção:

Lado do cliente: Contagem de tokens em tempo real via tokenizadores WASM, eventos de composição IME, renderização otimista da interface
Rede: Por que SSE vence sobre WebSockets para chat, problema de limite UTF-8 no streaming
Gateway de API: Terminação TLS na borda, limitação de taxa multidimensional (RPM vs ITPM vs OTPM)
Classificadores de segurança: O que executa antes e depois do modelo, por que a injeção de prompt é estruturalmente não resolvida
Montagem de contexto: O que realmente entra na janela de contexto (não são apenas suas mensagens)
Tokenização: Por que modelos não podem contar letras, por que espaços iniciais importam, como tokens especiais consomem orçamento
Cache KV e cache de prefixo: Matemática de memória GQA vs MHA, PagedAttention, taxa de acerto do cache como alavanca de custo
Prefill vs decode: Por que eles têm gargalos diferentes (computação vs largura de banda de memória)
Pipeline de amostragem: O pipeline completo de logits em ordem — penalidade de repetição, temperatura, top-k, top-p, softmax, amostra
Streaming: Análise de TTFT, análise de eventos SSE, renderização incremental de markdown
Uso de ferramentas e loops agenticos: Chamadas paralelas de ferramentas, injeção de prompt ressurgindo em resultados de ferramentas
Cobrança e observabilidade: TTFT vs TPOT, matemática de precificação de cache, o que instrumentar

Detalhes do Documento

O documento é voltado para engenheiros que já entendem transformers e querem ver como os sistemas de produção realmente funcionam. Foi lançado sob licença CC0, e contribuições são bem-vindas. O autor observa vários subsistemas não cobertos no final, incluindo decodificação especulativa, sistemas multimodais e coordenação multiagente.

O repositório foi criado para abordar a lacuna entre explicações de alto nível "transformers são mágicos" e artigos acadêmicos que não conectam conceitos ao comportamento do sistema de produção.

📖 Read the full source: r/LocalLLaMA

Pilha de Rastreamento de LLM de Ponta a Ponta: Do Toque de Tecla ao Token Transmitido

O que o Documento Aborda

Detalhes do Documento

👀 See Also

Lista de Verificação de Triagem de Desempenho do OpenClaw CLI

Lições Práticas da Construção de IA no Dispositivo em React Native

Resolvendo "Gemini CLI write_file não encontrado" no OpenClaw: Duas correções necessárias

Manual de lançamento de código aberto para projetos de LLM de código aberto e IA local