ClawCut Proxy Publié sur GitHub pour Optimiser OpenClaw pour les Petits LLM

Le proxy ClawCut est désormais disponible sur GitHub en tant qu'outil expérimental conçu pour optimiser l'interaction d'OpenClaw avec les LLM locaux, en particulier les petits modèles qui ont du mal avec les prompts système par défaut volumineux et les définitions d'outils complexes d'OpenClaw.
Ce que ClawCut résout
OpenClaw envoie des prompts système massifs (souvent >28 000 caractères) et des définitions d'outils JSON complexes aux LLM. Alors que les grands modèles cloud ou les modèles locaux haut de gamme (14B+) gèrent cela sans problème, les petits modèles (7B, 8B) fonctionnant sur du matériel limité (Mac/MLX ou Raspberry Pi) souffrent d'une "Surcharge Cognitive", entraînant :
- Une latence de traitement extrême (temps lent jusqu'au premier jeton)
- Les modèles oublient leur identité ou les outils disponibles
- Des hallucinations de réponses textuelles au lieu d'exécuter des scripts locaux
- Des délais d'expiration de connexion ou des réponses JSON mal formées
- Une énorme consommation de RAM
Comment fonctionne ClawCut
ClawCut agit comme un "Homme du Milieu" entre OpenClaw et votre serveur LLM local avec ces fonctionnalités d'optimisation :
- ÉLAGAGE DE PROMPT : Supprime automatiquement les compétences par défaut inutilisées du prompt système pour garder la fenêtre de contexte petite et ciblée
- AMNÉSIE INTELLIGENTE : Tronque intelligemment l'historique des conversations après des exécutions d'outils réussies pour libérer de "l'espace mental" au modèle
- FORCEUR D'ATTENTION : Injecte un rappel à la toute fin de la requête utilisateur pour s'assurer que le modèle priorise l'utilisation des outils
- FORCEUR D'OUTILS : Injecte des mots-clés pour l'appel d'outils et pointe vers les commandes
- SAUVETAGE D'ENTRÉE : Court-circuite les requêtes entrantes connues (comme les Cron-Jobs) pour contourner la latence LLM et garantir une fiabilité de 100% pour les tâches automatisées
- SAUVETAGE BASH : Détecte les appels de scripts mal formatés (par exemple, des blocs de code nus) et les convertit à la volée en appels d'outils OpenClaw valides
- Filtre automatiquement les horodatages dynamiques des prompts système pour permettre des réponses quasi instantanées via la mise en cache matérielle
- Traduit entre les flux compatibles OpenAI (MLX) et le format Ollama/NDJSON attendu par OpenClaw
- Sortie console en temps réel de la durée de pré-remplissage, du nombre de jetons
Performance et débogage
ClawCut offre des temps de réponse significativement plus rapides (TTFT) car le modèle a moins de texte à traiter initialement, une fiabilité améliorée lors de l'appel de scripts, et une gestion robuste des erreurs pour les interruptions de flux ou les erreurs de formatage. Avec le DEBUG_MODE activé, vous pouvez inspecter tout "l'Encombrement JSON" envoyé par OpenClaw pour comprendre exactement ce que le modèle est en train de traiter.
Quand l'utiliser
Idéal pour les petits modèles (7B-8B) fonctionnant sur du matériel comme Mac (MLX), Windows ou Linux, surtout si votre modèle "bavarde" trop au lieu d'exécuter des commandes. À utiliser avec prudence si vous utilisez des modèles grands et très intelligents (14B+) qui peuvent gérer nativement des prompts complexes. Dans ce cas, le proxy peut agir uniquement comme un enregistreur et traducteur de format sans manipuler le contenu si PASS_THROUGH_MODE = True.
📖 Read the full source: r/openclaw
👀 See Also

Monarch v3 : Pagination KV inspirée du NES pour une inférence LLM 78 % plus rapide
Monarch v3 implémente une pagination mémoire inspirée de la NES pour les transformers, obtenant une inférence 78 % plus rapide (17,01 à 30,42 tok/sec) sur un modèle de 1,1B paramètres avec une surcharge VRAM quasi nulle. L'algorithme open-source divise le cache KV en régions chaude et froide avec des mécanismes de compression et de promotion.

Plugin Spectyra pour OpenClaw : Optimisation des coûts IA en temps réel par analyse du flux complet des requêtes
Le plugin Spectyra réduit les coûts des API IA en exposant les gaspillages cachés comme les appels répétés, le contexte excessif et la mauvaise utilisation de modèles coûteux en temps réel.

Contexte Lean : Le Plugin Claude Code Convertit des Documents Verbose en Fichiers Optimisés pour Agents
Un plugin Claude Code gratuit et open-source appelé Lean Context analyse la documentation du projet et supprime le contenu que les agents IA peuvent découvrir via la recherche par motif (grepping), ne conservant que les commandes non évidentes essentielles, les pièges et les particularités de l'environnement. Dans un test de projet e-commerce .NET, il a réduit 8 documents totalisant 1 263 lignes à seulement 23 lignes.

Opérations du fondateur dans Claude : 19 compétences réutilisables pour les startups en phase de démarrage
Un fondateur qui a récemment quitté sa première startup a publié 19 prompts de compétences compatibles avec Claude pour des fonctions comme le positionnement, la tarification, la prospection et la rédaction — basés sur ses propres SOPs et workflows Notion.