Traza de Pila de LLM de Extremo a Extremo: Desde la Pulsación de Tecla hasta el Token Transmitido

✍️ OpenClawRadar📅 Publicado: 19 de marzo de 2026🔗 Source
Traza de Pila de LLM de Extremo a Extremo: Desde la Pulsación de Tecla hasta el Token Transmitido
Ad

Un ingeniero de software ha publicado un documento técnico detallado que rastrea exactamente lo que sucede en cada capa de la pila cuando envías un prompt a un LLM como Claude o ChatGPT. Inspirado en el clásico repositorio "qué-sucede-cuando" para la navegación del navegador, este documento proporciona una perspectiva de sistemas de producción sobre las interacciones de chat con LLM.

Lo que cubre el documento

El documento sigue el viaje completo en orden de producción:

  • Lado del cliente: Conteo de tokens en vivo mediante tokenizadores WASM, eventos de composición IME, renderizado optimista de la interfaz de usuario
  • Red: Por qué SSE gana sobre WebSockets para chat, problema de límite UTF-8 en la transmisión en flujo
  • Puerta de enlace API: Terminación TLS en el borde, limitación de tasa multidimensional (RPM vs ITPM vs OTPM)
  • Clasificadores de seguridad: Qué se ejecuta antes y después del modelo, por qué la inyección de prompts está estructuralmente sin resolver
  • Ensamblaje de contexto: Qué realmente entra en la ventana de contexto (no son solo tus mensajes)
  • Tokenización: Por qué los modelos no pueden contar letras, por qué los espacios iniciales importan, cómo los tokens especiales consumen presupuesto
  • Caché KV y caché de prefijos: Matemáticas de memoria GQA vs MHA, PagedAttention, tasa de aciertos de caché como palanca de costo
  • Prefill vs decode: Por qué tienen cuellos de botella diferentes (computación vs ancho de banda de memoria)
  • Canalización de muestreo: La canalización completa de logits en orden — penalización por repetición, temperatura, top-k, top-p, softmax, muestra
  • Transmisión en flujo: Desglose de TTFT, análisis de eventos SSE, renderizado incremental de markdown
  • Uso de herramientas y bucles agentes: Llamadas paralelas a herramientas, reaparición de inyección de prompts en resultados de herramientas
  • Facturación y observabilidad: TTFT vs TPOT, matemáticas de precios de caché, qué instrumentar
Ad

Detalles del documento

El documento está dirigido a ingenieros que ya comprenden los transformadores y quieren ver cómo funcionan realmente los sistemas de producción. Se publica bajo licencia CC0, y las contribuciones son bienvenidas. El autor señala varios subsistemas no cubiertos al final, incluida la decodificación especulativa, sistemas multimodales y coordinación multiagente.

El repositorio se creó para abordar la brecha entre las explicaciones de alto nivel "los transformadores son mágicos" y los artículos académicos que no conectan los conceptos con el comportamiento del sistema de producción.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también