Reutilização de Cache KV para Conversas Longas no Apple Silicon Oferece Aceleração de 200x

✍️ OpenClawRadar📅 Publicado: March 15, 2026🔗 Source
Reutilização de Cache KV para Conversas Longas no Apple Silicon Oferece Aceleração de 200x
Ad

O Que É Isso

Um desenvolvedor compartilhou resultados experimentais da implementação da reutilização de cache KV (chave-valor) baseada em sessão para inferência de LLM local em Apple Silicon usando o framework MLX. O objetivo era tornar conversas longas (100K+ tokens) práticas, eliminando a necessidade de reprocessar todo o contexto a cada turno.

Principais Descobertas e Benchmarks

A abordagem central envolveu manter o cache KV na memória entre as voltas da conversa e processar apenas os novos tokens. Essa ideia simples resultou em melhorias dramáticas de desempenho:

  • Melhoria de 200x no TTFT em Contexto de 100K: Sem cache: 126 segundos. Com cache: 0,5 segundos. Isso representa uma redução de 99,9% nos tokens processados.
  • Números de Sessão do Mundo Real: Testes com um modelo Qwen3.5-397B em um Mac Studio M3 Ultra 512GB durante uma sessão de agente OpenClaw de 266 mensagens mostraram:
    • Taxa de acerto do cache: 93,8%
    • TTFT para acertos do cache (<500 novos tokens): 1,0-1,3 segundos
    • TTFT para uma falha completa do cache (124K tokens): 528 segundos (8,8 minutos)
Ad

O Que Não Funcionou

O desenvolvedor testou várias tentativas de otimização que falharam ou degradaram o desempenho:

  • Poda de Tokens de Pensamento: Tentar remover os tokens de raciocínio interno do modelo do cache para economizar espaço causou comportamento patológico. As respostas ficaram 31% mais longas e a qualidade caiu, pois o modelo referencia seu raciocínio passado entre as voltas.
  • Rotacionar o Cache KV (8192 tokens): Embora isso tenha fornecido a melhor taxa de tokens por segundo (TPS), fez o modelo perder o contexto anterior, com a recuperação caindo significativamente (para 4 de 8 itens).
  • Quantização de 8 bits do KV: Isso resultou em uma queda de 16,5% na TPS, pois a sobrecarga computacional excedeu as economias de largura de banda de memória.

Implementação e Hardware

A implementação faz parte de um projeto pessoal de código aberto chamado SoloHeaven, disponível sob licença MIT no GitHub: https://github.com/joongom/mlx-soloheaven. O README contém tabelas completas de benchmarks.

Os testes foram conduzidos em um Mac Studio M3 Ultra com 512GB de RAM e 4TB de armazenamento, usando os seguintes modelos convertidos para MLX:

  • Qwen3.5-122B-A10B-bf16
  • Qwen3.5-397B-A17B-MLX-8bit

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Plugin de Canal Personalizado do WhatsApp para Claude Code Usando Baileys
Tools

Plugin de Canal Personalizado do WhatsApp para Claude Code Usando Baileys

Um desenvolvedor criou um plugin de canal personalizado que adiciona suporte ao WhatsApp no Claude Code 2.1.80+ usando Baileys v7, implementando o protocolo WhatsApp Web Multi-Device como um servidor MCP com a capacidade experimental claude/channel.

OpenClawRadar
Academia de Aprendizagem RAG Construída Dentro do Claude Code com 20 Agentes Especialistas
Tools

Academia de Aprendizagem RAG Construída Dentro do Claude Code com 20 Agentes Especialistas

Um desenvolvedor criou uma academia interativa de aprendizado RAG dentro do Claude Code, apresentando 20 agentes especialistas, 17 comandos de barra e um currículo de 9 módulos que avalia o nível de conhecimento e utiliza ferramentas de código aberto por padrão.

OpenClawRadar
Indicação de Assistente de Burocracia Alemã para Claude: Correspondência Jurídica Estruturada
Tools

Indicação de Assistente de Burocracia Alemã para Claude: Correspondência Jurídica Estruturada

Um prompt de sistema detalhado para o Claude que transforma a IA em um assistente estruturado para burocracia alemã, contratos, disputas de seguros e cartas oficiais, com verificação rigorosa de fatos e formatação DIN 5008.

OpenClawRadar
Problemas de Compactação de Sessão do Claude AI e Soluções Alternativas
Tools

Problemas de Compactação de Sessão do Claude AI e Soluções Alternativas

A compactação padrão nas sessões do Claude AI pode degradar a precisão da recuperação de ~9,75/10 para ~5/10, causando alucinações. O usuário testou com 418 mil tokens e descobriu que a compactação manual usando Opus mantém a precisão enquanto a compactação padrão falha.

OpenClawRadar