Latence zéro : une couche de mémoire persistante pour les agents IA via MCP

0Latency est un serveur MCP (Model Context Protocol) qui fournit une mémoire persistante pour les agents d'IA comme Claude, résolvant le problème courant de la perte de contexte entre les sessions. Le développeur l'a créé après avoir subi une compaction de contexte lors de travaux complexes de refactorisation, où Claude avait oublié des décisions prises 30 minutes plus tôt.
Fonctionnement
L'outil s'intègre directement à Claude Desktop, Claude Code et claude.ai sans enveloppeurs ni bidouilles. Il est compatible avec GPT, Gemini, Cursor et tout agent compatible MCP. Pendant que vous travaillez, votre agent stocke des souvenirs, puis les rappelle automatiquement lors des sessions suivantes, permettant au contexte de s'accumuler plutôt que de se réinitialiser.
Développement et tests
Le développeur a utilisé Claude Code avec 0Latency connecté pour construire le reste de 0Latency. Cette approche a permis de détecter un bug critique : un mode de défaillance où Claude disait "compris, je stocke ça" mais le souvenir ne persistait pas réellement dans l'API — un échec silencieux que les utilisateurs auraient interprété comme un produit défectueux.
Lors des tests, le système a géré une session de cinq heures avec plus de 15 tâches accomplies et deux compactions de contexte sans perdre aucun souvenir.
Tarification et disponibilité
- Niveau gratuit : 10 000 souvenirs, 3 agents, pas de carte de crédit requise
- Les plans payants incluent une garantie de remboursement de 30 jours
- Prime aux bugs : Trouvez un bug confirmé et obtenez 3 mois de Pro gratuitement (détails dans la section Construisez avec nous)
- Le développeur recherche 10 personnes pour des tests de résistance en échange d'un mois gratuit de Pro
Détails techniques
0Latency est disponible sur 0latency.ai avec le code source sur GitHub. Le développeur est disponible pour répondre aux questions sur l'architecture et les détails d'intégration MCP.
📖 Read the full source: r/ClaudeAI
👀 See Also

Le moteur d'inférence Atlas devient open source : Rust pur + CUDA, plus de 100 tok/s sur DGX Spark
Atlas est maintenant open source — un moteur d'inférence Rust + CUDA qui atteint un pic de 130 tok/s sur Qwen3.5-35B (NVFP4) sur un seul DGX Spark, sans runtime Python et avec un démarrage à froid inférieur à 2 minutes.
MartinLoop : Plan de contrôle open source pour agents de codage IA avec plafonds budgétaires et pistes d'audit
MartinLoop est un plan de contrôle open source qui ajoute des limites budgétaires strictes, des pistes d'audit JSONL, une classification des échecs et des vérifications d'achèvement validées par des tests aux agents de codage IA.

La compétence Claude Code combine les approches de DeepMind Aletheia et d'Anthropic harness.
Une compétence Claude Code implémente un pipeline Planificateur → Générateur → Évaluateur → Réviseur qui synthétise l'agent de recherche mathématique Aletheia de DeepMind avec l'architecture de codage multi-agent d'Anthropic, ajoutant une pré-analyse à l'aveugle où l'évaluateur raisonne sur les approches correctes avant de voir le code candidat.

Lightning MLX : Moteur IA local rapide pour usage agentique sur Apple Silicon délivre 220 tok/s sur Qwen 35B-A3B
Lightning MLX revendique l'inférence IA locale la plus rapide sur Apple Silicon, optimisé pour les agents de codage et l'appel d'outils. Les benchmarks montrent 40,67 tok/s sur Qwen3.6-27B et 220,86 tok/s sur Qwen3.6-35B-A3B depuis un MacBook Max M5 (128 Go).