Pilha de Rastreamento de LLM de Ponta a Ponta: Do Toque de Tecla ao Token Transmitido

Um engenheiro de software publicou um documento técnico detalhado que rastreia exatamente o que acontece em cada camada da pilha quando você envia um prompt para um LLM como Claude ou ChatGPT. Inspirado pelo clássico repositório "o-que-acontece-quando" para navegação no navegador, este documento fornece uma perspectiva de sistemas de produção sobre interações de chat com LLMs.
O que o Documento Aborda
O documento segue a jornada completa na ordem de produção:
- Lado do cliente: Contagem de tokens em tempo real via tokenizadores WASM, eventos de composição IME, renderização otimista da interface
- Rede: Por que SSE vence sobre WebSockets para chat, problema de limite UTF-8 no streaming
- Gateway de API: Terminação TLS na borda, limitação de taxa multidimensional (RPM vs ITPM vs OTPM)
- Classificadores de segurança: O que executa antes e depois do modelo, por que a injeção de prompt é estruturalmente não resolvida
- Montagem de contexto: O que realmente entra na janela de contexto (não são apenas suas mensagens)
- Tokenização: Por que modelos não podem contar letras, por que espaços iniciais importam, como tokens especiais consomem orçamento
- Cache KV e cache de prefixo: Matemática de memória GQA vs MHA, PagedAttention, taxa de acerto do cache como alavanca de custo
- Prefill vs decode: Por que eles têm gargalos diferentes (computação vs largura de banda de memória)
- Pipeline de amostragem: O pipeline completo de logits em ordem — penalidade de repetição, temperatura, top-k, top-p, softmax, amostra
- Streaming: Análise de TTFT, análise de eventos SSE, renderização incremental de markdown
- Uso de ferramentas e loops agenticos: Chamadas paralelas de ferramentas, injeção de prompt ressurgindo em resultados de ferramentas
- Cobrança e observabilidade: TTFT vs TPOT, matemática de precificação de cache, o que instrumentar
Detalhes do Documento
O documento é voltado para engenheiros que já entendem transformers e querem ver como os sistemas de produção realmente funcionam. Foi lançado sob licença CC0, e contribuições são bem-vindas. O autor observa vários subsistemas não cobertos no final, incluindo decodificação especulativa, sistemas multimodais e coordenação multiagente.
O repositório foi criado para abordar a lacuna entre explicações de alto nível "transformers são mágicos" e artigos acadêmicos que não conectam conceitos ao comportamento do sistema de produção.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Erro do Serviço de VM Cowork do Windows: Problema de Caminho e Correção
Um problema de instalação do Windows Cowork causa o erro 'serviço de VM não está em execução' a cada 10-20 minutos devido ao caminho incorreto da pasta vm_bundles em instalações MSIX. A correção envolve localizar a pasta correta e usar um script de reparo.

Depuração de Timeouts do Modelo Local OpenClaw + Ollama: Cinco Correções para Falhas Silenciosas
Um desenvolvedor identificou cinco causas principais para os agentes do OpenClaw falharem silenciosamente com modelos locais do Ollama, como o Gemma 4 26B, incluindo um gerador de slugs bloqueante, um prompt de sistema de 38 mil caracteres e timeouts ocultos. As correções envolvem desabilitar hooks, modificar configurações e ajustar configurações do Ollama.

Executando um LLM de 1 Trilhão de Parâmetros Localmente em um Cluster AMD Ryzen AI Max+
A AMD demonstra a execução do modelo de código aberto Kimi K2.5 (375GB, 1 trilhão de parâmetros) em quatro sistemas Framework Desktop com processadores Ryzen AI Max+ 395 usando llama.cpp RPC. O guia aborda modificações no kernel TTM para 120GB de VRAM por nó e fornece duas opções de configuração: binários pré-construídos do Lemonade SDK ou instalação manual do ROCm 7.0.2.

Tratamento de Desconexões de Gateway para Automação Eficaz
Explore soluções práticas para manter as operações de agentes de codificação de IA ao enfrentar desconexões do gateway. Dicas incluem monitoramento com Grafana, scripts de reconexão automatizados e uso de caminhos redundantes para confiabilidade.