L'architecture à double modèle réduit de moitié la consommation de jetons pour les conversations longues.

✍️ OpenClawRadar📅 Publié: March 9, 2026🔗 Source
L'architecture à double modèle réduit de moitié la consommation de jetons pour les conversations longues.
Ad

Système de compression de contexte pour agents IA

Un développeur sur r/ClaudeAI a partagé une solution au problème des agents IA qui perdent le contexte après la compaction des conversations. Le système utilise une architecture à double modèle où un petit modèle peu coûteux (appelé le "subconscient") compresse continuellement l'historique des conversations en arrière-plan.

Détails de l'architecture

Le système comporte quatre couches :

  • Résumé narratif (~1K tokens)
  • Faits compressés
  • Citations textuelles récupérées sémantiquement
  • Tours récents bruts

Le modèle principal ("conscient") reçoit un contexte soigneusement sélectionné d'environ 35K tokens avec la même densité d'information qui nécessiterait normalement 120K tokens d'historique brut. Le modèle principal lit une chronologie cohérente et ne sait pas que le système de mémoire existe.

Ad

Résultats de performance

Le développeur a simulé 260 tours à travers différents types de conversations. Pour un travail de projet soutenu (commençant par des recherches approfondies et passant progressivement à des échanges rapides au fur et à mesure que le modèle apprend le domaine), le système réduit la consommation de tokens d'environ la moitié.

Outils de développement

Le système a été construit avec Claude Code pour la simulation et Claude.ai pour l'étape de consultation et de recherche. Le développeur recherche d'autres personnes qui ont essayé de router un modèle plus petit pour gérer le contexte d'un modèle plus grand ou qui ont trouvé d'autres solutions de contournement au problème de compaction.

📖 Lire la source complète : r/ClaudeAI

Ad

👀 See Also

Diffusé : Une Compétence Claude Code pour une Publication HTML Instantanée vers des URL en Direct
Tools

Diffusé : Une Compétence Claude Code pour une Publication HTML Instantanée vers des URL en Direct

Aired est un outil open-source qui publie du HTML sur une URL en direct en 2 secondes via les compétences Claude Code ou les serveurs MCP. Il ne nécessite aucune inscription, configuration de déploiement ou installation pour les outils d'IA basés sur le web, et fonctionne avec Claude Code, Cursor, VS Code, Codex et Windsurf.

OpenClawRadar
L'extension Event Horizon pour VS Code ajoute le verrouillage de fichiers et la coordination des plans pour plusieurs agents IA.
Tools

L'extension Event Horizon pour VS Code ajoute le verrouillage de fichiers et la coordination des plans pour plusieurs agents IA.

Event Horizon, une extension VS Code initialement créée pour visualiser Claude Code, inclut désormais des fonctionnalités de verrouillage de fichiers et de coordination de plans pour empêcher plusieurs agents IA d'écraser mutuellement leur travail sur la même base de code. L'outil prend en charge Claude Code, OpenCode et Copilot avec une configuration en un clic.

OpenClawRadar
MCP en tant qu'Interface d'Observabilité : Connecter les Agents IA aux Points de Trace du Noyau
Tools

MCP en tant qu'Interface d'Observabilité : Connecter les Agents IA aux Points de Trace du Noyau

Le Model Context Protocol (MCP) émerge comme l'interface entre les agents d'IA et la télémétrie d'infrastructure, avec Datadog qui livre un serveur MCP et Qualys qui signale des préoccupations de sécurité. L'article explore deux approches : encapsuler des plateformes existantes ou construire une observabilité native MCP qui se connecte directement aux points de trace du noyau.

OpenClawRadar
Résultats de Benchmark : 15 LLM Testés sur 38 Tâches de Flux de Travail Réelles
Tools

Résultats de Benchmark : 15 LLM Testés sur 38 Tâches de Flux de Travail Réelles

Un développeur a évalué 15 LLMs cloud et locaux sur 38 tâches issues de son flux de travail réel, incluant des transformations CSV, des comptages de lettres, de l'arithmétique modulaire et de la conformité de format. Claude 3.5 Sonnet et Opus ont tous deux obtenu 100 %, mais Sonnet coûte 3,5 fois moins par appel.

OpenClawRadar