Claude CLI v2.1.154 Quebra vLLM Local — Correção de Uma Linha Resolve

O Claude CLI v2.1.154 introduziu suporte a workflows, mas ao fazer isso adicionou três novos papéis de mensagens na API (ctx, msg e system) que quebraram a compatibilidade com servidores vLLM locais. A correção é uma alteração de uma linha nas definições do protocolo Anthropic do vLLM.
O Problema
Versões do Claude CLI ≥2.1.154 agora enviam mensagens com papéis além de user e assistant. O endpoint da API Anthropic do vLLM só aceitava os dois papéis originais, fazendo com que as requisições do CLI falhassem ao apontar para uma instância local do vLLM.
O Patch de Uma Linha
O patch atualiza o campo role em vllm/entrypoints/anthropic/protocol.py para permitir os novos papéis:
--- a/vllm/entrypoints/anthropic/protocol.py
+++ b/vllm/entrypoints/anthropic/protocol.py
@@ -65,7 +65,7 @@ class AnthropicContentBlock(BaseModel):
class AnthropicMessage(BaseModel):
"""Estrutura da mensagem"""
- role: Literal["user", "assistant"]
+ role: Literal["user", "assistant", "ctx", "msg", "system"]É isso. Após aplicar esta alteração, você pode usar os workflows mais recentes do Claude CLI com modelos locais baseados em vLLM, como o MiniMax-M2.7 (o único modelo testado pelo autor).
Se você executa um endpoint compatível com Anthropic no vLLM local, aplique este patch para continuar funcionando com o Claude CLI ≥2.1.154.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Os Agentes de Código Claude Não Lêem Automaticamente a Documentação do Projeto
Quando o Claude Code despacha subagentes como o Sonnet para escrever código, esses agentes veem apenas o que está explicitamente incluído em seu prompt e não leem automaticamente os arquivos CLAUDE.md, MEMORY.md ou outros arquivos de contexto do projeto, a menos que sejam especificamente instruídos a fazê-lo.

Auditoria do Claude Code encontra 3GB de lixo em ~/.claude — Veja como limpar
Um usuário pediu ao Claude Code para auditar seu próprio diretório ~/.claude e encontrou 2,6 GB de transcrições de sessão obsoletas, 170 MB de logs de repetição de telemetria com falha e 153 MB de buffers de desfazer — reduzindo de 3 GB para menos de 200 MB após a limpeza.

Enquadrando Conversas de IA em vez de Escrever Prompts Perfeitos
Um desenvolvedor no r/ClaudeAI compartilha sete técnicas práticas para melhorar as respostas do Claude AI, enquadrando conversas com contexto, papéis, consequências e solicitações de julgamento, em vez de focar na formulação perfeita dos prompts.

Agentes de Auditoria em Paralelo: Uma Abordagem Prática para Testes Codificados por Vibração com Claude
Um desenvolvedor construiu um sistema de teste de usuários com Claude usando 10 agentes de auditoria paralelos cobrindo detecção de alucinação, sentinela de API, teste de estresse de UI, anonimização de PII, SEO, conformidade legal, simulação comportamental, personas demográficas, teste de funil e verificação de fatos.