Réduisez de 90 % les coûts des sessions de codage IA avec l'indexation de code basée sur des graphes

Un utilisateur de Reddit rapporte dépenser 2 à 6 dollars par requête sur Claude Code, car le modèle relit des dizaines de fichiers à chaque session. Même avec la mise en cache (70 % des tokens provenant du cache avec 90 % de réduction), le cache se réinitialise à chaque session. La solution : un serveur local qui indexe le codebase dans une base de données graphe, interrogée via le Model Context Protocol (MCP) au lieu de lectures brutes de fichiers.
Comment ça marche
- Au lieu d'analyse AST ou d'embeddings vectoriels, l'outil utilise un LLM pour générer un objectif, un résumé et un contexte métier pour chaque fichier, ainsi que des liens vers ses fonctions, classes et imports.
- Le graphe est exposé via un serveur MCP ; Claude interroge le graphe pour des recherches ciblées (2 à 4 nœuds par question) au lieu de vider l'intégralité du dépôt dans le contexte.
- Les coûts de session sont passés de dollars à centimes. L'approche fonctionne aussi bien avec des modèles open-source comme DeepSeek-V4 et Kimi-2.6, car c'est la récupération (et non la taille du modèle) qui fait le gros du travail.
Détails de configuration
Tout s'exécute localement, mono-tenant, sans dépendance cloud. Le projet est open-sourcé sur GitHub : github.com/ByteBell/bytebell-oss. L'utilisateur note qu'il n'utilise pas d'analyse AST ou de vecteurs — le graphe est constitué d'analyses de fichiers générées par LLM.
À qui cela s'adresse
Les développeurs utilisant Claude Code (ou tout agent IA facturé au token) sur de grands codebases qui souhaitent réduire les coûts en mettant en cache le contexte structurel entre sessions.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

Qwen 3.5 35B Fonctionnant sur 8 Go de VRAM avec la configuration llama.cpp
Un développeur partage sa configuration llama.cpp pour exécuter Qwen 3.5 35B (Q4_K_M GGUF) sur une RTX 4060m avec 8 Go de VRAM, obtenant 700 t/s de traitement de prompt et 42 t/s de génération, et discute de l'utilisation de Cline dans VSCode avec les modes kat-coder-pro et qwen3.5.

Extension VS Code d'IA locale bloque la génération de code non sécurisé lors des sauvegardes
Un développeur a créé une extension VS Code qui exécute llama3.1:8b-instruct-q4 localement pour intercepter les sauvegardes, cartographier les flux d'exécution source-à-puits et bloquer le code généré par IA non sécurisé, comme les vulnérabilités d'injection de logs CWE-117.

Codegraph : Un graphe de connaissances pré-indexé réduit de 94 % les appels d'outils Claude/Cursor
Codegraph utilise un graphe de connaissances pré-indexé des relations entre symboles, des graphes d'appel et de la structure du code pour réduire les appels d'outils API jusqu'à 94 % et accélérer l'utilisation d'environ 77 % pour les agents Claude, Cursor, Codex et OpenCode.

Acheminer le trafic de l'API Claude pour contrôler les coûts suite au changement d'abonnement Max
L'abonnement Max d'Anthropic ne couvre plus l'utilisation d'outils tiers, forçant les utilisateurs d'OpenClaw à passer à la facturation par API. Un proxy de routage dirige les tâches simples vers Claude Sonnet (3 $/M d'entrée, 15 $/M de sortie) et les tâches complexes vers Opus (5 $/M d'entrée, 25 $/M de sortie), réduisant les coûts sans perte de qualité.