Traza de Pila de LLM de Extremo a Extremo: Desde la Pulsación de Tecla hasta el Token Transmitido

Un ingeniero de software ha publicado un documento técnico detallado que rastrea exactamente lo que sucede en cada capa de la pila cuando envías un prompt a un LLM como Claude o ChatGPT. Inspirado en el clásico repositorio "qué-sucede-cuando" para la navegación del navegador, este documento proporciona una perspectiva de sistemas de producción sobre las interacciones de chat con LLM.
Lo que cubre el documento
El documento sigue el viaje completo en orden de producción:
- Lado del cliente: Conteo de tokens en vivo mediante tokenizadores WASM, eventos de composición IME, renderizado optimista de la interfaz de usuario
- Red: Por qué SSE gana sobre WebSockets para chat, problema de límite UTF-8 en la transmisión en flujo
- Puerta de enlace API: Terminación TLS en el borde, limitación de tasa multidimensional (RPM vs ITPM vs OTPM)
- Clasificadores de seguridad: Qué se ejecuta antes y después del modelo, por qué la inyección de prompts está estructuralmente sin resolver
- Ensamblaje de contexto: Qué realmente entra en la ventana de contexto (no son solo tus mensajes)
- Tokenización: Por qué los modelos no pueden contar letras, por qué los espacios iniciales importan, cómo los tokens especiales consumen presupuesto
- Caché KV y caché de prefijos: Matemáticas de memoria GQA vs MHA, PagedAttention, tasa de aciertos de caché como palanca de costo
- Prefill vs decode: Por qué tienen cuellos de botella diferentes (computación vs ancho de banda de memoria)
- Canalización de muestreo: La canalización completa de logits en orden — penalización por repetición, temperatura, top-k, top-p, softmax, muestra
- Transmisión en flujo: Desglose de TTFT, análisis de eventos SSE, renderizado incremental de markdown
- Uso de herramientas y bucles agentes: Llamadas paralelas a herramientas, reaparición de inyección de prompts en resultados de herramientas
- Facturación y observabilidad: TTFT vs TPOT, matemáticas de precios de caché, qué instrumentar
Detalles del documento
El documento está dirigido a ingenieros que ya comprenden los transformadores y quieren ver cómo funcionan realmente los sistemas de producción. Se publica bajo licencia CC0, y las contribuciones son bienvenidas. El autor señala varios subsistemas no cubiertos al final, incluida la decodificación especulativa, sistemas multimodales y coordinación multiagente.
El repositorio se creó para abordar la brecha entre las explicaciones de alto nivel "los transformadores son mágicos" y los artículos académicos que no conectan los conceptos con el comportamiento del sistema de producción.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Consejos Prácticos de OpenClaw: Comenzar Pequeño, Evitar Errores Comunes
Un desarrollador comparte lecciones de construir un rastreador de salud personal con OpenClaw, enfatizando un alcance limitado, flujos de trabajo deterministas y apegarse a un solo LLM. La publicación incluye observaciones específicas del modelo comparando ChatGPT y Gemini.

Cómo asegurar Claude Cowork con una capa proxy: Guía práctica
Un tutorial sobre cómo configurar una capa proxy para observar y asegurar el comportamiento de Claude Cowork, publicado por el equipo de General Analysis.

Cómo configurar Qwen 3.6 Plus Preview en OpenRouter para uso gratuito de OpenClaw
Qwen 3.6 Plus Preview está actualmente disponible de forma gratuita en OpenRouter con una ventana de contexto de 1 millón de tokens, adecuada para trabajos de agentes de IA. La configuración implica crear una cuenta en OpenRouter, agregar el proveedor a OpenClaw y configurar el modelo.

Dominando las Copias de Seguridad: Protegiendo su Agente OpenClaw
En una era dominada por la automatización y la IA, garantizar la seguridad de tu agente OpenClaw a través de estrategias de respaldo sólidas es primordial. Aprende los pasos esenciales para asegurar tu asistente digital.