0Latency: Uma Camada de Memória Persistente para Agentes de IA via MCP

0Latency é um servidor MCP (Model Context Protocol) que fornece memória persistente para agentes de IA como o Claude, abordando o problema comum de perda de contexto entre sessões. O desenvolvedor criou isso após experimentar compactação de contexto durante trabalhos complexos de refatoração, onde o Claude esqueceu decisões tomadas 30 minutos antes.
Como Funciona
A ferramenta se conecta diretamente ao Claude Desktop, Claude Code e claude.ai sem wrappers ou hacks. É compatível com GPT, Gemini, Cursor e qualquer agente compatível com MCP. Conforme você trabalha, seu agente armazena memórias, então as recupera automaticamente em sessões subsequentes, permitindo que o contexto se acumule em vez de ser reiniciado.
Desenvolvimento e Testes
O desenvolvedor usou o Claude Code com 0Latency conectado para construir o restante do 0Latency. Essa abordagem ajudou a detectar um bug crítico: um modo de falha onde o Claude dizia "entendi, armazenando isso" mas a memória não persistia realmente na API — uma falha silenciosa que os usuários interpretariam como um produto quebrado.
Nos testes, o sistema lidou com uma sessão de cinco horas com mais de 15 tarefas concluídas e duas compactações de contexto sem perder nenhuma memória.
Preços e Disponibilidade
- Plano gratuito: 10 mil memórias, 3 agentes, sem necessidade de cartão de crédito
- Planos pagos incluem garantia de devolução do dinheiro de 30 dias
- Recompensa por bugs: Encontre um bug confirmado e ganhe 3 meses de Pro grátis (detalhes na seção Construa Conosco)
- O desenvolvedor está procurando 10 pessoas para testes de estresse em troca de um mês grátis do Pro
Detalhes Técnicos
0Latency está disponível em 0latency.ai com código-fonte no GitHub. O desenvolvedor está disponível para responder perguntas sobre a arquitetura e detalhes de integração MCP.
📖 Read the full source: r/ClaudeAI
👀 See Also

SmallClaw V1.0.3 Adiciona Suporte a Webhooks, Automação n8n e Servidor MCP
A versão 1.0.3 do SmallClaw introduz endpoints de webhook para acionar serviços externos, fluxos de trabalho de automação local com n8n e conexões de servidor MCP para integração de ferramentas. A atualização mantém o foco da ferramenta em funcionar com pequenos LLMs locais.

O fork vllm-mlx adiciona chamada de ferramentas e cache de prompt para agentes de IA de codificação local.
Um desenvolvedor modificou o vllm-mlx para corrigir problemas de chamada de ferramentas e adicionar cache de prompt, reduzindo o TTFT de 28s para 0,3s no OpenClaw para Apple Silicon. O fork suporta Qwen3-Coder-Next a 65 tok/s no M3 Ultra com chamada de funções funcionando.

GlycemicGPT: Monitor de Diabetes com IA Auto-hospedada com BYOAI e SDK de Plugins
GlycemicGPT é uma plataforma open-source e auto-hospedada que conecta monitores Dexcom G7 e bombas Tandem a uma camada de análise de IA. Ela fornece resumos diários, análise de refeições, chat conversacional e alertas configuráveis, tudo no seu próprio hardware.

Steelman R5: Modelo de 14B Ajustado Supera o Claude Opus na Geração de Código Ada
Um desenvolvedor ajustou o Qwen2.5-Coder-14B-Instruct usando QLoRA em um conjunto de dados verificado por compilador com 3.430 pares de instruções Ada/SPARK, alcançando uma taxa de compilação de 68,6% em um benchmark personalizado, contra 42,1% do Claude Opus 4.6. O modelo está disponível via Ollama e cabe em 12GB de VRAM.