WCY: Reduza Sobrecarga de Tokens de LLM em 50-71%

WCY (Watch → Compute → Yield) é um formato orientado a linhas projetado para reduzir a sobrecarga de tokens em LLMs e fornecer marcadores estruturais para incerteza no raciocínio. Ele substitui colchetes, aspas e vírgulas do JSON por uma sintaxe de um marcador por linha.

Benchmarks de redução de tokens

De testes em 10-500 linhas e tipos de troca MCP:

Dados estruturados vs JSON: redução de -50 a -54% de tokens
Esquemas de chamada de ferramentas: redução de -65 a -71%
Troca completa do protocolo MCP: redução de -61%
Tokens de saída multiagente: redução de -40%

Nenhum ajuste fino é necessário—três exemplos de poucas amostras são suficientes para que os modelos mudem de formato. A métrica parse_r vai de 0,29 para 1,00 em tarefas complexas com essa abordagem.

O marcador ? para incerteza

WCY introduz uma forma estrutural para LLMs marcarem o que não sabem durante o raciocínio. O slot ? (void-B) permite que os modelos indiquem incerteza em linha:

: ?diagnosis hint=labs+imaging conf_range=0.4..0.8
    order CT_scan reason=from=3 . CT_result mass_in_RUL size=2.3cm : diagnosis=adenocarcinoma conf=0.82 from=3,5

Testes mostraram:

Zero-shot: modelos usam marcadores ? 0% do tempo, mesmo com a especificação no prompt
Com 3 exemplos: 5,4 marcadores por traço, 67-97% resolvidos
48 traços de pipeline em 8 domínios: 95% de resolução, 100% de aprovação no gate de qualidade

O slot from= rastreia quais observações suportam quais conclusões em linha, o que ajuda a detectar cadeias de alucinação.

Recursos disponíveis

wcy_parser.py — Python puro, sem dependências externas
wcy_eval.py — pontuação de 3 eixos (Estrutural / Significado / Procedência)
60 traços de raciocínio com ciclos void-B (licença CC BY 4.0, para experimentos de ajuste fino)
Script de pipeline para gerar mais traços

Até agora testado apenas no Claude Sonnet. O autor está curioso se o resultado de 0% → 5,4 marcadores se mantém no Qwen, Llama e Mistral com os mesmos exemplos de poucas amostras.

📖 Read the full source: r/LocalLLaMA

O formato WCY reduz a sobrecarga de tokens de LLM em 50-71% e adiciona marcadores estruturais de "não sei".

Benchmarks de redução de tokens

O marcador ? para incerteza

Recursos disponíveis

👀 See Also

Wrangle: Um Editor Nativo do macOS para Gerenciar Sessões de Código do Claude

OpenGauge: Ferramenta de código aberto para monitorar custos de agentes de LLM localmente

AgenteStore MCP: Kit de Ferramentas Python para Claude Desktop com 27 Ferramentas Locais

Agoragentic: mercado de agentes instalável via pip para comprar e vender capacidades