O formato WCY reduz a sobrecarga de tokens de LLM em 50-71% e adiciona marcadores estruturais de "não sei".

WCY (Watch → Compute → Yield) é um formato orientado a linhas projetado para reduzir a sobrecarga de tokens em LLMs e fornecer marcadores estruturais para incerteza no raciocínio. Ele substitui colchetes, aspas e vírgulas do JSON por uma sintaxe de um marcador por linha.
Benchmarks de redução de tokens
De testes em 10-500 linhas e tipos de troca MCP:
- Dados estruturados vs JSON: redução de -50 a -54% de tokens
- Esquemas de chamada de ferramentas: redução de -65 a -71%
- Troca completa do protocolo MCP: redução de -61%
- Tokens de saída multiagente: redução de -40%
Nenhum ajuste fino é necessário—três exemplos de poucas amostras são suficientes para que os modelos mudem de formato. A métrica parse_r vai de 0,29 para 1,00 em tarefas complexas com essa abordagem.
O marcador ? para incerteza
WCY introduz uma forma estrutural para LLMs marcarem o que não sabem durante o raciocínio. O slot ? (void-B) permite que os modelos indiquem incerteza em linha:
: ?diagnosis hint=labs+imaging conf_range=0.4..0.8
order CT_scan reason=from=3 . CT_result mass_in_RUL size=2.3cm : diagnosis=adenocarcinoma conf=0.82 from=3,5Testes mostraram:
- Zero-shot: modelos usam marcadores ? 0% do tempo, mesmo com a especificação no prompt
- Com 3 exemplos: 5,4 marcadores por traço, 67-97% resolvidos
- 48 traços de pipeline em 8 domínios: 95% de resolução, 100% de aprovação no gate de qualidade
O slot from= rastreia quais observações suportam quais conclusões em linha, o que ajuda a detectar cadeias de alucinação.
Recursos disponíveis
- wcy_parser.py — Python puro, sem dependências externas
- wcy_eval.py — pontuação de 3 eixos (Estrutural / Significado / Procedência)
- 60 traços de raciocínio com ciclos void-B (licença CC BY 4.0, para experimentos de ajuste fino)
- Script de pipeline para gerar mais traços
Até agora testado apenas no Claude Sonnet. O autor está curioso se o resultado de 0% → 5,4 marcadores se mantém no Qwen, Llama e Mistral com os mesmos exemplos de poucas amostras.
📖 Read the full source: r/LocalLLaMA
👀 See Also

EmoBar: Visualizando os Vetores Internos de Emoção do Claude do Artigo da Anthropic
Um desenvolvedor criou o EmoBar, uma ferramenta de código aberto que visualiza as 171 representações internas de emoção no Claude identificadas no artigo recente da Anthropic. A ferramenta utiliza uma abordagem de canal duplo para revelar esses vetores mensuráveis que causam o comportamento do modelo.

Método de Evolução de Código Triplica o Desempenho do LLM no Benchmark ARC-AGI-2
Pesquisadores alcançaram uma melhoria de 2,8x no benchmark ARC-AGI-2 usando evolução de código com modelos de pesos abertos, atingindo 34% de precisão a US$ 2,67 por tarefa. O mesmo método elevou o Gemini 3.1 Pro para 95% de precisão a US$ 8,71 por tarefa.

Agente de revisão de PR open source PrixAI detecta 10/10 bugs plantados a um custo 6x menor que o CodeRabbit
Um usuário do Reddit construiu o PrixAI, um agente de revisão de PR de código aberto que usa modelos de inferência locais/baratos para igualar os recursos do CodeRabbit com um custo 6 vezes menor, detectando todos os 10 problemas intencionalmente inseridos em um PR de teste.

Comparação de 8 Modelos de IA de Programação na Implementação de Recursos em TypeScript do Mundo Real
Um desenvolvedor testou 8 modelos de IA para programação na implementação de um comando /rename em um projeto de bot do Telegram em TypeScript de código aberto, avaliando-os em custo, tempo de execução, correção e qualidade técnica. O GPT-5.4 obteve a maior pontuação em correção de implementação, enquanto o GLM 5 ofereceu a melhor relação custo-benefício.