Traza de Pila de LLM de Extremo a Extremo: Desde la Pulsación de Tecla hasta el Token Transmitido

Un ingeniero de software ha publicado un documento técnico detallado que rastrea exactamente lo que sucede en cada capa de la pila cuando envías un prompt a un LLM como Claude o ChatGPT. Inspirado en el clásico repositorio "qué-sucede-cuando" para la navegación del navegador, este documento proporciona una perspectiva de sistemas de producción sobre las interacciones de chat con LLM.
Lo que cubre el documento
El documento sigue el viaje completo en orden de producción:
- Lado del cliente: Conteo de tokens en vivo mediante tokenizadores WASM, eventos de composición IME, renderizado optimista de la interfaz de usuario
- Red: Por qué SSE gana sobre WebSockets para chat, problema de límite UTF-8 en la transmisión en flujo
- Puerta de enlace API: Terminación TLS en el borde, limitación de tasa multidimensional (RPM vs ITPM vs OTPM)
- Clasificadores de seguridad: Qué se ejecuta antes y después del modelo, por qué la inyección de prompts está estructuralmente sin resolver
- Ensamblaje de contexto: Qué realmente entra en la ventana de contexto (no son solo tus mensajes)
- Tokenización: Por qué los modelos no pueden contar letras, por qué los espacios iniciales importan, cómo los tokens especiales consumen presupuesto
- Caché KV y caché de prefijos: Matemáticas de memoria GQA vs MHA, PagedAttention, tasa de aciertos de caché como palanca de costo
- Prefill vs decode: Por qué tienen cuellos de botella diferentes (computación vs ancho de banda de memoria)
- Canalización de muestreo: La canalización completa de logits en orden — penalización por repetición, temperatura, top-k, top-p, softmax, muestra
- Transmisión en flujo: Desglose de TTFT, análisis de eventos SSE, renderizado incremental de markdown
- Uso de herramientas y bucles agentes: Llamadas paralelas a herramientas, reaparición de inyección de prompts en resultados de herramientas
- Facturación y observabilidad: TTFT vs TPOT, matemáticas de precios de caché, qué instrumentar
Detalles del documento
El documento está dirigido a ingenieros que ya comprenden los transformadores y quieren ver cómo funcionan realmente los sistemas de producción. Se publica bajo licencia CC0, y las contribuciones son bienvenidas. El autor señala varios subsistemas no cubiertos al final, incluida la decodificación especulativa, sistemas multimodales y coordinación multiagente.
El repositorio se creó para abordar la brecha entre las explicaciones de alto nivel "los transformadores son mágicos" y los artículos académicos que no conectan los conceptos con el comportamiento del sistema de producción.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Componentes de un Agente de Codificación: Cómo las Herramientas, la Memoria y el Contexto Amplían los LLMs
Sebastián Raschka desglosa los seis componentes fundamentales de los agentes de codificación como Claude Code y Codex CLI, explicando cómo los marcos de agentes combinan modelos con herramientas, memoria y contexto del repositorio para hacer que los LLM sean más efectivos en el trabajo de software.

Migrando agentes OpenClaw a Claude Code después de la depreciación del arnés de terceros
Un desarrollador migró 17 agentes de OpenClaw a Claude Code en una tarde después de que Anthropic terminó el soporte para herramientas de terceros. El proceso involucró crear puntos de entrada CLAUDE.md, envoltorios bash y trabajos cron mientras se preservaba la lógica existente de los agentes.

Cómo acceder a GPT-5.4 de forma anticipada en OpenClaw a través del Canal de Desarrollo
El canal de desarrollo (dev) de OpenClaw actualmente ofrece acceso al modelo GPT-5.4 antes de su lanzamiento estable. Los usuarios necesitan cambiar su puerta de enlace al canal de desarrollo usando un comando específico y reiniciarlo para ver el modelo en su lista.

Configuración de Servidores MCP en la Interfaz Web de llama-server: Una Guía Práctica
Un usuario de Reddit comparte pasos específicos para configurar servidores MCP en la interfaz web de llama-server, incluyendo la instalación de uv, la creación de un archivo config.json con definiciones de servidores, la ejecución de mcp-proxy y la modificación de URLs para una integración adecuada.