Claude CLI v2.1.154 rompe vLLM local — Un parche de una línea lo soluciona

✍️ OpenClawRadar📅 Publicado: 30 de mayo de 2026🔗 Source
Claude CLI v2.1.154 rompe vLLM local — Un parche de una línea lo soluciona
Ad

Claude CLI v2.1.154 introdujo soporte para flujos de trabajo, pero al hacerlo añadió tres nuevos roles de mensajes en la API (ctx, msg y system) que rompieron la compatibilidad con servidores locales de vLLM. La solución es un cambio de una línea en las definiciones del protocolo Anthropic de vLLM.

El problema

Las versiones de Claude CLI ≥2.1.154 ahora envían mensajes con roles más allá de user y assistant. El endpoint de la API Anthropic de vLLM solo aceptaba los dos roles originales, provocando que las solicitudes del CLI fallaran al apuntar a una instancia local de vLLM.

Ad

El parche de una línea

El parche actualiza el campo role en vllm/entrypoints/anthropic/protocol.py para permitir los nuevos roles:

--- a/vllm/entrypoints/anthropic/protocol.py
+++ b/vllm/entrypoints/anthropic/protocol.py
@@ -65,7 +65,7 @@ class AnthropicContentBlock(BaseModel):
 class AnthropicMessage(BaseModel):
     """Message structure"""
-    role: Literal["user", "assistant"]
+    role: Literal["user", "assistant", "ctx", "msg", "system"]

Eso es todo. Tras aplicar este cambio, puedes usar los flujos de trabajo más recientes de Claude CLI con modelos locales basados en vLLM como MiniMax-M2.7 (el único modelo probado por el autor).

Si ejecutas un endpoint local compatible con Anthropic en vLLM, aplica este parche para seguir funcionando con Claude CLI ≥2.1.154.

📖 Lee la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

No asuma que los modelos caros son mejores: un estudio de caso muestra un ahorro de costos de 13 veces al probar
Consejos

No asuma que los modelos caros son mejores: un estudio de caso muestra un ahorro de costos de 13 veces al probar

Un usuario de Reddit reemplazó GPT-5.4 con Gemini 3.1 Flash Lite en una tarea de clasificación, logrando una precisión idéntica del 85% a 1/13 del costo después de ejecutar evaluaciones en 21 modelos.

OpenClawRadar
Cómo dejar de alcanzar los límites de Claude: Trata cada sesión como un presupuesto de tokens
Consejos

Cómo dejar de alcanzar los límites de Claude: Trata cada sesión como un presupuesto de tokens

Un usuario comparte cómo solucionó los límites diarios de Claude al detener la hinchazón de mensajes: delimitar la tarea, cargar solo contexto relevante y limpiar después de cada sesión. Incluye flujo de trabajo práctico e infografía.

OpenClawRadar
Comprimir archivos CLAUDE.md para reducir la hinchazón del prompt del sistema en Claude Code
Consejos

Comprimir archivos CLAUDE.md para reducir la hinchazón del prompt del sistema en Claude Code

Una técnica para comprimir archivos CLAUDE.md eliminando el formato legible para humanos como encabezados de markdown y prosa, reemplazándolos con notación compacta como listas delimitadas por barras verticales, logrando una reducción del 60-70% de caracteres mientras se mantiene la misma información para Claude.

OpenClawRadar
La mayoría usa Claude al 5% de su capacidad – Así es como solucionarlo
Consejos

La mayoría usa Claude al 5% de su capacidad – Así es como solucionarlo

Después de más de 60 horas probando prompts en Claude Opus 4.7, un usuario comparte una receta de 5 pasos: asignar rol, cargar contexto específico, establecer restricciones, definir formato de salida y agregar función de forzado.

OpenClawRadar