L'architecture à double modèle réduit de moitié la consommation de jetons pour les conversations longues.

✍️ OpenClawRadar📅 Publié: March 9, 2026🔗 Source

Système de compression de contexte pour agents IA

Un développeur sur r/ClaudeAI a partagé une solution au problème des agents IA qui perdent le contexte après la compaction des conversations. Le système utilise une architecture à double modèle où un petit modèle peu coûteux (appelé le "subconscient") compresse continuellement l'historique des conversations en arrière-plan.

Détails de l'architecture

Le système comporte quatre couches :

Résumé narratif (~1K tokens)
Faits compressés
Citations textuelles récupérées sémantiquement
Tours récents bruts

Le modèle principal ("conscient") reçoit un contexte soigneusement sélectionné d'environ 35K tokens avec la même densité d'information qui nécessiterait normalement 120K tokens d'historique brut. Le modèle principal lit une chronologie cohérente et ne sait pas que le système de mémoire existe.

Résultats de performance

Le développeur a simulé 260 tours à travers différents types de conversations. Pour un travail de projet soutenu (commençant par des recherches approfondies et passant progressivement à des échanges rapides au fur et à mesure que le modèle apprend le domaine), le système réduit la consommation de tokens d'environ la moitié.

Outils de développement

Le système a été construit avec Claude Code pour la simulation et Claude.ai pour l'étape de consultation et de recherche. Le développeur recherche d'autres personnes qui ont essayé de router un modèle plus petit pour gérer le contexte d'un modèle plus grand ou qui ont trouvé d'autres solutions de contournement au problème de compaction.

📖 Lire la source complète : r/ClaudeAI

👀 See Also

Tools

SimplePDF Copilot : Appel d'outil IA côté client pour le remplissage de formulaires PDF

SimplePDF Copilot utilise l'appel d'outils côté client pour permettre à un LLM de remplir des champs, d'en ajouter, de supprimer des pages, etc. dans des PDF — sans que le PDF ne quitte le navigateur.

May 2, 2026, 12:15 PM UTC

OpenClawRadar

Tools

Orc : Orchestrateur Multi-Projets Open Source pour Agents d'IA de Codage

Orc est un orchestrateur au niveau du système d'exploitation qui coordonne des agents de codage IA sur plusieurs projets en utilisant bash, tmux et des git worktrees. Il résout les conflits de fusion, le travail dupliqué et la surcharge de coordination grâce à un système de relecture à deux niveaux et une consommation nulle de tokens pour l'orchestration.

Mar 25, 2026, 05:45 PM UTC

OpenClawRadar

Tools

Rever UI Cloner : Alternative optimisée par l'IA au scraping HTML pour la réplication d'interface utilisateur

Rever UI Cloner est un point de terminaison API qui fournit aux agents IA des plans de conception propres au lieu de HTML brut, évitant ainsi le gonflement de la fenêtre de contexte et les problèmes d'hallucination d'interface utilisateur. Il utilise le protocole de paiement x402 nécessitant une micro-transaction de 1 USDC sur le réseau Base pour les paiements d'agent à agent.

Feb 27, 2026, 11:45 AM UTC

OpenClawRadar

🦀

Tools

Interné en physique chez Hugging Face : Un cadre multi-agent double les performances de Gemini sur le benchmark CritPt

Hugging Face a publié physics-intern, un framework multi-agents pour la recherche en physique théorique qui double les performances des modèles Gemini sur le benchmark CritPt et établit un nouveau SOTA face à GPT-5.5 Pro à moindre coût.

May 12, 2026, 06:16 PM UTC

OpenClawRadar