Cache KV Reutilizável 200x Mais Rápido no Apple Silicon MLX

O Que É Isso

Um desenvolvedor compartilhou resultados experimentais da implementação da reutilização de cache KV (chave-valor) baseada em sessão para inferência de LLM local em Apple Silicon usando o framework MLX. O objetivo era tornar conversas longas (100K+ tokens) práticas, eliminando a necessidade de reprocessar todo o contexto a cada turno.

Principais Descobertas e Benchmarks

A abordagem central envolveu manter o cache KV na memória entre as voltas da conversa e processar apenas os novos tokens. Essa ideia simples resultou em melhorias dramáticas de desempenho:

Melhoria de 200x no TTFT em Contexto de 100K: Sem cache: 126 segundos. Com cache: 0,5 segundos. Isso representa uma redução de 99,9% nos tokens processados.
Números de Sessão do Mundo Real: Testes com um modelo Qwen3.5-397B em um Mac Studio M3 Ultra 512GB durante uma sessão de agente OpenClaw de 266 mensagens mostraram:
- Taxa de acerto do cache: 93,8%
- TTFT para acertos do cache (<500 novos tokens): 1,0-1,3 segundos
- TTFT para uma falha completa do cache (124K tokens): 528 segundos (8,8 minutos)

O Que Não Funcionou

O desenvolvedor testou várias tentativas de otimização que falharam ou degradaram o desempenho:

Poda de Tokens de Pensamento: Tentar remover os tokens de raciocínio interno do modelo do cache para economizar espaço causou comportamento patológico. As respostas ficaram 31% mais longas e a qualidade caiu, pois o modelo referencia seu raciocínio passado entre as voltas.
Rotacionar o Cache KV (8192 tokens): Embora isso tenha fornecido a melhor taxa de tokens por segundo (TPS), fez o modelo perder o contexto anterior, com a recuperação caindo significativamente (para 4 de 8 itens).
Quantização de 8 bits do KV: Isso resultou em uma queda de 16,5% na TPS, pois a sobrecarga computacional excedeu as economias de largura de banda de memória.

Implementação e Hardware

A implementação faz parte de um projeto pessoal de código aberto chamado SoloHeaven, disponível sob licença MIT no GitHub: https://github.com/joongom/mlx-soloheaven. O README contém tabelas completas de benchmarks.

Os testes foram conduzidos em um Mac Studio M3 Ultra com 512GB de RAM e 4TB de armazenamento, usando os seguintes modelos convertidos para MLX:

Qwen3.5-122B-A10B-bf16
Qwen3.5-397B-A17B-MLX-8bit

📖 Read the full source: r/LocalLLaMA

Reutilização de Cache KV para Conversas Longas no Apple Silicon Oferece Aceleração de 200x

O Que É Isso

Principais Descobertas e Benchmarks

O Que Não Funcionou

Implementação e Hardware

👀 See Also

Plugin Design Studio para Claude Code Adiciona Equipe de Design Virtual com 9 Funções e 16 Comandos

Jogo de Quebra-Cabeça para Bots com Prêmios: Um Novo Desafio para Programadores de IA

Sandra: MCP de memória gráfica persistente de código aberto para Claude

10.33 t/s no Qwen 3.5 35B com um Laptop de $300: Análise Completa de Otimização