Depuración de Tiempos de Espera en OpenClaw + Modelo Local de Ollama: Cinco Soluciones para Fallos Silenciosos

Problema: Los agentes de OpenClaw fallan en silencio con modelos locales de Ollama
Un desarrollador que depuraba OpenClaw 2026.4.2 con Ollama 0.20.2 y el modelo Gemma 4 26B-A4B Q8_0 en un Mac Studio M4 Max descubrió que los agentes no respondían después de un comando /new, a pesar de que el modelo funcionaba instantáneamente mediante ollama run. No aparecieron errores en los registros, y el agente no mostraba indicador de escritura.
Causas principales y soluciones
- Causa principal #1: Generador de slugs bloqueante: El hook
session-memoryde OpenClaw ejecuta un generador de slugs que envía una solicitud a Ollama con un tiempo de espera fijo de 15 segundos. Si el modelo no puede procesar el prompt de sistema de OpenClaw a tiempo, OpenClaw abandona la solicitud, pero Ollama continúa procesándola, bloqueando las solicitudes posteriores del agente.
Solución:openclaw hooks disable session-memory - Causa principal #2: Prompt de sistema extenso: OpenClaw inyecta aproximadamente 38,500 caracteres de prompt de sistema (identidad, herramientas, archivos de arranque) por solicitud. Los modelos locales requieren 40-60 segundos para la fase de prefiltrado.
Solución: Agregar a la configuración para omitir la inyección de arranque y limitar caracteres:
Esto reduce el prompt a ~19K caracteres.{ "agents": { "defaults": { "skipBootstrap": true, "bootstrapTotalMaxChars": 500 } } } - Causa principal #3: Tiempo de espera inactivo oculto: OpenClaw tiene un
DEFAULT_LLM_IDLE_TIMEOUT_MSde 60 segundos. Si el modelo no produce un primer token dentro de este tiempo, mata la conexión y cambia silenciosamente a un modelo de respaldo (por ejemplo, Claude Sonnet).
Solución: Establecer una clave de configuración no documentada:{ "agents": { "defaults": { "llm": { "idleTimeoutSeconds": 300 } } } } - Causa principal #4: Procesamiento en serie de Ollama: Ollama procesa las solicitudes en serie, por lo que las solicitudes de generador de slugs abandonadas pueden ocupar espacios de procesamiento.
Solución: Agregar a la configuración del servicio/plist de Ollama:OLLAMA_NUM_PARALLEL=4 - Causa principal #5: Retraso del modo de pensamiento: Gemma 4 tiene por defecto una fase de pensamiento/razonamiento que agrega 20-30 segundos antes del primer token.
Solución: Desactivar en la configuración:{ "agents": { "defaults": { "thinkingDefault": "off" } } }
Configuración completa funcional
El desarrollador proporcionó esta configuración completa para una configuración funcional:
{ "agents": { "defaults": { "model": { "primary": "ollama/gemma4:26b-a4b-it-q8_0", "fallbacks": ["anthropic/claude-sonnet-4-6"] }, "thinkingDefault": "off", "timeoutSeconds": 600, "skipBootstrap": true, "bootstrapTotalMaxChars": 500, "llm": { "idleTimeoutSeconds": 300 } } } }Además, fijar el modelo en memoria para evitar su descarga entre solicitudes:
curl http://localhost:11434/api/generate -d '{"model":"gemma4:26b-a4b-it-q8_0","keep_alive":-1,"options":{"num_ctx":16384}}'Resultados y compensaciones
Después de aplicar las soluciones, el primer mensaje después de /new tarda unos 60 segundos debido al prefiltrado del prompt de sistema, lo cual se describe como inevitable para modelos locales. Los mensajes posteriores son rápidos porque Ollama almacena en caché el estado KV. La configuración utiliza 31GB de VRAM, 100% de GPU y una ventana de contexto de 16K, funcionando completamente local sin costo de API.
El retraso inicial es la compensación por una operación completamente local, privacidad y sin costo. El desarrollador señala que vale la pena si se priorizan esos factores.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Conceder acceso a Claude M365 a través de Power Automate y un servidor FastMCP
Un desarrollador creó un servidor MCP ligero que permite a Claude interactuar con Microsoft 365 (bandeja de entrada, calendario, OneDrive, Planner, Excel, Word) usando webhooks de Power Automate, sin necesidad de permisos de administrador de Graph.

Límites de Tasa de la API Claude: Ventanas de Zona Horaria, Gestión de Contexto y Sobrecarga de MCP
El análisis de los límites de tasa de la API de Claude revela restricciones más estrictas durante las horas pico (5am-11am PT / 8am-2pm ET en días laborables), donde la gestión del contexto y el uso del servidor MCP impactan significativamente el consumo de tokens. Las estrategias prácticas incluyen trabajar fuera de las ventanas pico, iniciar conversaciones nuevas para tareas diferentes y auditar las integraciones MCP.

Patrones de diseño de API orientados a agentes: Perspectivas de Moltbook
El diseño de la API de Moltbook respalda las interacciones proactivas de agentes de IA al integrar instrucciones directas, transiciones de estado, desafíos cognitivos y limitación de tasas educativas.

Optimización de AutoResearch en RTX 5090: Lo que falló y lo que funcionó
Un desarrollador comparte detalles específicos de configuración para ejecutar AutoResearch en una configuración RTX 5090/Blackwell, incluyendo enfoques fallidos que parecían funcionales pero tenían un rendimiento deficiente, y la configuración funcional que logró resultados estables con TOTAL_BATCH_SIZE=2**17 y TIME_BUDGET=1200.