Claude CLI v2.1.154 rompe vLLM local — Un parche de una línea lo soluciona

Claude CLI v2.1.154 introdujo soporte para flujos de trabajo, pero al hacerlo añadió tres nuevos roles de mensajes en la API (ctx, msg y system) que rompieron la compatibilidad con servidores locales de vLLM. La solución es un cambio de una línea en las definiciones del protocolo Anthropic de vLLM.
El problema
Las versiones de Claude CLI ≥2.1.154 ahora envían mensajes con roles más allá de user y assistant. El endpoint de la API Anthropic de vLLM solo aceptaba los dos roles originales, provocando que las solicitudes del CLI fallaran al apuntar a una instancia local de vLLM.
El parche de una línea
El parche actualiza el campo role en vllm/entrypoints/anthropic/protocol.py para permitir los nuevos roles:
--- a/vllm/entrypoints/anthropic/protocol.py
+++ b/vllm/entrypoints/anthropic/protocol.py
@@ -65,7 +65,7 @@ class AnthropicContentBlock(BaseModel):
class AnthropicMessage(BaseModel):
"""Message structure"""
- role: Literal["user", "assistant"]
+ role: Literal["user", "assistant", "ctx", "msg", "system"]Eso es todo. Tras aplicar este cambio, puedes usar los flujos de trabajo más recientes de Claude CLI con modelos locales basados en vLLM como MiniMax-M2.7 (el único modelo probado por el autor).
Si ejecutas un endpoint local compatible con Anthropic en vLLM, aplica este parche para seguir funcionando con Claude CLI ≥2.1.154.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

No asuma que los modelos caros son mejores: un estudio de caso muestra un ahorro de costos de 13 veces al probar
Un usuario de Reddit reemplazó GPT-5.4 con Gemini 3.1 Flash Lite en una tarea de clasificación, logrando una precisión idéntica del 85% a 1/13 del costo después de ejecutar evaluaciones en 21 modelos.

Cómo dejar de alcanzar los límites de Claude: Trata cada sesión como un presupuesto de tokens
Un usuario comparte cómo solucionó los límites diarios de Claude al detener la hinchazón de mensajes: delimitar la tarea, cargar solo contexto relevante y limpiar después de cada sesión. Incluye flujo de trabajo práctico e infografía.

Comprimir archivos CLAUDE.md para reducir la hinchazón del prompt del sistema en Claude Code
Una técnica para comprimir archivos CLAUDE.md eliminando el formato legible para humanos como encabezados de markdown y prosa, reemplazándolos con notación compacta como listas delimitadas por barras verticales, logrando una reducción del 60-70% de caracteres mientras se mantiene la misma información para Claude.

La mayoría usa Claude al 5% de su capacidad – Así es como solucionarlo
Después de más de 60 horas probando prompts en Claude Opus 4.7, un usuario comparte una receta de 5 pasos: asignar rol, cargar contexto específico, establecer restricciones, definir formato de salida y agregar función de forzado.