Deja de preguntar qué modelo de IA usar: enruta tareas a los niveles Haiku, Soneto y Opus

El usuario de Reddit u/spencer_kw critica las publicaciones diarias de "¿qué modelo debería usar?" y ofrece una respuesta concreta basada en un mes de enrutamiento por tipo de tarea. La idea clave: ningún modelo es óptimo para todo, y deberías enrutar las tareas al menos en tres niveles.
Niveles de Modelo por Tarea
- Leer archivos, resumir, responder preguntas de código: Usa el modelo más barato — Haiku, Qwen 3.6 via Ollama, Gemma 4. Enviar lecturas de archivos a Opus es quemar dinero.
- Escribir código, pruebas, plantillas: Nivel Sonnet — GPT-5.5 mini, DeepSeek v4. Generación sólida a una fracción del costo de los modelos avanzados.
- Refactorizaciones de múltiples archivos, arquitectura, depuración asíncrona compleja: Solo aquí necesitas Opus o GPT-5.5. Esto es ~15-20% de tu día.
Configuración Práctica de Enrutamiento
La distribución actual de u/spencer_kw:
- ~40% de las tareas → nivel Haiku (lectores baratos)
- ~35% → nivel Sonnet (generación)
- ~25% → nivel Opus (razonamiento complejo)
Gasto mensual total: $30–40 dependiendo de la carga de trabajo.
El enfoque de "conductor diario" está quebrado — pedir un solo modelo para todo es como pedir un solo vehículo que sirva tanto para carga como para ir al trabajo. Usa múltiples modelos y enruta según la tarea.
📖 Lee la fuente completa: r/openclaw
👀 Ver también

Flujo de Trabajo de Claude Code Visual Explica la Jerarquía de Memoria y el Sistema de Habilidades
Un usuario de Reddit compartió un diagrama visual que muestra la estructura del flujo de trabajo de Claude Code, incluyendo la estratificación de memoria con archivos CLAUDE.md y habilidades reutilizables definidas en directorios .claude/skills/. El bucle de trabajo sugiere usar el modo Plan, describir características, aceptar automáticamente y confirmar cambios con frecuencia.

OpenClaw 101: La Guía Definitiva de Configuración para Nuevos Usuarios

Traza de Pila de LLM de Extremo a Extremo: Desde la Pulsación de Tecla hasta el Token Transmitido
Un ingeniero de software ha creado un documento exhaustivo que rastrea cada capa de la pila al enviar un prompt a un LLM, abarcando el conteo de tokens en el lado del cliente, protocolos de red, puertas de enlace API, clasificadores de seguridad, tokenización, caché KV, canalización de muestreo y mecánicas de transmisión en flujo.

Depuración de Tiempos de Espera en OpenClaw + Modelo Local de Ollama: Cinco Soluciones para Fallos Silenciosos
Un desarrollador identificó cinco causas principales por las que los agentes de OpenClaw se quedan en silencio y agotan el tiempo de espera con modelos locales de Ollama como Gemma 4 26B, incluyendo un generador de slugs bloqueante, un prompt de sistema de 38K caracteres y tiempos de espera ocultos. Las soluciones implican desactivar hooks, modificar configuraciones y ajustar los ajustes de Ollama.