Traza de Pila de LLM Completa: De Tecla a Token

Un ingeniero de software ha publicado un documento técnico detallado que rastrea exactamente lo que sucede en cada capa de la pila cuando envías un prompt a un LLM como Claude o ChatGPT. Inspirado en el clásico repositorio "qué-sucede-cuando" para la navegación del navegador, este documento proporciona una perspectiva de sistemas de producción sobre las interacciones de chat con LLM.

Lo que cubre el documento

El documento sigue el viaje completo en orden de producción:

Lado del cliente: Conteo de tokens en vivo mediante tokenizadores WASM, eventos de composición IME, renderizado optimista de la interfaz de usuario
Red: Por qué SSE gana sobre WebSockets para chat, problema de límite UTF-8 en la transmisión en flujo
Puerta de enlace API: Terminación TLS en el borde, limitación de tasa multidimensional (RPM vs ITPM vs OTPM)
Clasificadores de seguridad: Qué se ejecuta antes y después del modelo, por qué la inyección de prompts está estructuralmente sin resolver
Ensamblaje de contexto: Qué realmente entra en la ventana de contexto (no son solo tus mensajes)
Tokenización: Por qué los modelos no pueden contar letras, por qué los espacios iniciales importan, cómo los tokens especiales consumen presupuesto
Caché KV y caché de prefijos: Matemáticas de memoria GQA vs MHA, PagedAttention, tasa de aciertos de caché como palanca de costo
Prefill vs decode: Por qué tienen cuellos de botella diferentes (computación vs ancho de banda de memoria)
Canalización de muestreo: La canalización completa de logits en orden — penalización por repetición, temperatura, top-k, top-p, softmax, muestra
Transmisión en flujo: Desglose de TTFT, análisis de eventos SSE, renderizado incremental de markdown
Uso de herramientas y bucles agentes: Llamadas paralelas a herramientas, reaparición de inyección de prompts en resultados de herramientas
Facturación y observabilidad: TTFT vs TPOT, matemáticas de precios de caché, qué instrumentar

Detalles del documento

El documento está dirigido a ingenieros que ya comprenden los transformadores y quieren ver cómo funcionan realmente los sistemas de producción. Se publica bajo licencia CC0, y las contribuciones son bienvenidas. El autor señala varios subsistemas no cubiertos al final, incluida la decodificación especulativa, sistemas multimodales y coordinación multiagente.

El repositorio se creó para abordar la brecha entre las explicaciones de alto nivel "los transformadores son mágicos" y los artículos académicos que no conectan los conceptos con el comportamiento del sistema de producción.

📖 Leer la fuente completa: r/LocalLLaMA

Traza de Pila de LLM de Extremo a Extremo: Desde la Pulsación de Tecla hasta el Token Transmitido

Lo que cubre el documento

Detalles del documento

👀 Ver también

Cómo Reclamar y Extender los Créditos de la API de Anthropic Usando el Router de Manifest

Enruta Claude Code a través de Ollama y reduce tu factura ~90%

Guía práctica de configuración y puesta en marcha del agente de IA autohospedado OpenClaw

Consejos Prácticos de Arquitectura de Sistemas Multiagente Basados en la Experiencia