Claude Code: 45k Tokens ocultos por carga de herramientas

Investigación sobre desperdicio de tokens revela sobrecarga significativa

Un desarrollador realizó una auditoría de 926 sesiones de Claude Code después de notar un consumo rápido de tokens tras los cambios en los límites de tasa de Anthropic. La investigación reveló que cada sesión de Claude Code comienza con una carga base de aproximadamente 45,000 tokens antes de cualquier entrada del usuario. Esto incluye indicaciones del sistema, definiciones de herramientas, descripciones de agentes, archivos de memoria, descripciones de habilidades y esquemas MCP.

En la ventana de contexto estándar de 200k, esta carga inicial de 45k representa más del 20% del contexto disponible consumido antes de que comience cualquier conversación. Dado que Claude Code opera como un bucle sin estado, todo este contexto se reconstruye y reenvía con cada turno, haciendo que la sobrecarga inicial sea un costo recurrente.

La carga predeterminada de herramientas consume tokens significativos

La auditoría encontró que 20,000 tokens del contexto inicial provenían de definiciones de esquemas de herramientas del sistema. Por defecto, Claude Code carga el esquema JSON completo para cada herramienta disponible en el contexto al inicio de la sesión, independientemente de si esas herramientas se usarán o no.

El desarrollador descubrió una configuración llamada enable_tool_search que habilita la carga diferida de herramientas. Cuando está habilitada, esta configuración solo carga 6 herramientas principales inicialmente y carga el resto bajo demanda en lugar de volcar todos los esquemas de herramientas de una vez.

El cambio de configuración produce ahorros inmediatos

Para habilitar la carga diferida de herramientas, agregue esto a su settings.json:

{
  "env": {
    "ENABLE_TOOL_SEARCH": "true"
  }
}

Este único cambio de configuración redujo el contexto inicial de 45,000 a 20,000 tokens, con la sobrecarga de herramientas del sistema cayendo de 20,000 a 6,000 tokens. Esto ahorra 14,000 tokens en cada turno de cada sesión.

Implicaciones de costos de las configuraciones predeterminadas

El desarrollador calculó el impacto de esta configuración en su uso. Con sesiones promediando 22 turnos, los 14,000 tokens adicionales por turno ascendieron a 308,000 tokens innecesarios por sesión. En 858 sesiones, esto totalizó 264 millones de tokens.

A precios de lectura de caché ($0.50/MTok), esto representó $132 en costos innecesarios. Sin embargo, dado que más de la mitad de los turnos alcanzaban cachés expiradas (lo que activa precios completos de entrada a $5/MTok), el costo real se estimó entre $132 y $1,300 solo por esta configuración predeterminada.

Estrategias adicionales de optimización

El desarrollador también implementó otras optimizaciones que redujeron el contexto inicial en 4,000-5,000 tokens:

Recortar y reestructurar archivos markdown y de memoria de CLAUDE
Consolidar descripciones de habilidades
Desactivar servidores MCP no utilizados
Ajustar inyecciones de esquemas desde ganchos de memoria

Claude Code almacena conversaciones como archivos JSONL localmente bajo ~/.claude/projects/, aunque no hay una forma incorporada de obtener desgloses detallados por sesión, costo por proyecto o categorías de gastos. Se encontró que el comando incorporado /insights era insuficiente para diagnosticar desperdicio.

📖 Leer la fuente completa: r/ClaudeAI