L'Orchestrateur : Pourquoi l'intention devrait survivre au processus

Les piles d'agents actuelles sont inversées. La surface (terminal, éditeur) possède le modèle, les outils et l'historique, tandis que l'identité est éphémère — ouvrez un nouveau terminal et l'agent disparaît. L'auteur propose une couche d'orchestrateur qui dissocie l'intention de tout processus unique. Propriétés clés :
- Identité au-dessus des sessions : Un agent logique persiste à travers les processus. Les sessions vont et viennent ; l'agent reste.
- Routage entre surfaces : L'agent distribue le travail à différentes machines (par exemple, boîte repo, boîte GPU, téléphone) sans les traiter comme non liées.
- Primitive de transfert réelle : Un objet typé transportant ce qui a été fait, ce qui est inachevé, les décisions bloquées — pas un historique de chat dégradé.
- Agents pairs, pas sous-agents : Deux agents dans des contextes différents coordonnent via un plan de contrôle qu'aucun ne possède.
- Appels inter-pilotes : « Modèle bon marché résume, modèle coûteux agit » est une primitive, pas de l'ingénierie de prompt. L'orchestrateur choisit le runtime par étape en fonction du coût, de la latence, des capacités.
- Surfaces d'approbation qui survivent : Si l'agent fait une pause pour approbation et que vous êtes à trois fuseaux horaires de distance, l'approbation vous parvient sans garder l'agent en vie.
Exemple concret : Trier un test instable
Aujourd'hui, vous ouvrez trois terminaux et collez des traces de pile entre Claude, Gemini et Grok. Le flux souhaité par l'auteur sous une seule intention d'orchestrateur : « Trier cette instabilité, proposer un correctif, le faire réviser. »
- Ollama (local) : Ingérer le journal de test, supprimer le bruit, produire un résumé structuré de l'échec. Gratuit, ne quitte jamais la machine.
- Gemini CLI : Prendre le résumé plus le dépôt, identifier le changement suspect, rédiger un patch. Grand contexte, fort pour lire le code, accès en lecture seule au dépôt.
- Grok Build : Prendre le patch et l'échec original, rendre un verdict (livrer/réviser/remonter). Une autre famille de modèles comme second avis. Pas d'accès en écriture.
Trois runtimes, trois périmètres d'autorisation, trois niveaux de coût, une seule intention. L'orchestrateur transporte l'objet de transfert entre les étapes et présente une seule approbation au lieu de trois conversations déconnectées. Si Grok dit « remonter », l'intention fait une pause et attend une décision humaine — sans garder Ollama ou Gemini en vie.
Depuis la semaine dernière, au moins trois agents de codage natifs au terminal s'exécutent localement : le runtime Ollama, Gemini CLI de Google et Grok Build de xAI avec mode plan et sous-agents parallèles. Le modèle est la partie bon marché et remplaçable. L'orchestrateur devrait être la partie ennuyeuse et durable.
📖 Read the full source: r/ClaudeAI
👀 See Also

Cowork peut utiliser une instance Chrome sur une autre machine sans que vous le sachiez
Un utilisateur de Reddit a découvert que Cowork peut exécuter des tâches de navigation en utilisant une instance Chrome sur une machine distante (Windows) jumelée via une extension, signalée comme isLocal: false — ce qui n'est pas documenté.

Anthropic refuse les demandes du Pentagone de supprimer les mesures de sécurité et perd des contrats fédéraux
Anthropic a refusé les exigences du Pentagone de supprimer les garde-fous de sécurité de Claude pour des applications militaires, entraînant l'annulation d'un contrat de 200 millions de dollars et un décret présidentiel interdisant l'utilisation de leur technologie par les agences fédérales.

Andrej Karpathy rejoint l'équipe de pré-entraînement d'Anthropic pour stimuler l'auto-amélioration récursive avec Claude
Andrej Karpathy, ancien cofondateur d'OpenAI, rejoint l'équipe de pré-entraînement d'Anthropic sous la direction de Nick Josef pour constituer une nouvelle équipe axée sur l'utilisation de Claude afin d'accélérer la recherche en pré-entraînement, permettant ainsi une amélioration récursive autonome.

Benchmarks de performance de Qwen3.5-27B-FP8 avec les agents OpenClaw
Les tests montrent que Qwen3.5-27B-FP8 peut exécuter six agents OpenClaw simultanément avec un débit atteignant 120 tokens/seconde. Le framework SGLang avec mise en cache des préfixes réduit le préremplissage d'un contexte de 100K de 10 secondes à 200 ms.