Engramx v3.4: MCP Server + SQLite Wissensgraph reduziert Tokenverbrauch von Claude Code um 89%

Engramx v3.4 ist ein MCP-Server, kombiniert mit einem SQLite-basierten Wissensgraphen, der Dateilesevorgänge an der Agentengrenze abfängt. Wenn Claude Code versucht, eine Datei zu lesen, die engram indiziert hat, gibt der Hook eine strukturelle Zusammenfassung statt des Rohinhalts zurück. Das Ergebnis: derselbe Edit, derselbe Diff, aber weit weniger Token pro Roundtrip.
Wichtige Details
- Benchmark: Echte Codebasis mit 87 Dateien; aggregierte Token-Reduktion 89,1 %. Die beste Datei sank von 18.820 auf 306 Token. Das Benchmark-Skript ist
bench/real-world.ts– Sie können es in jedem eigenen Projekt ausführen. - IDE-Unterstützung: Funktioniert nativ in 8 IDEs: Claude Code (Hooks + offizielles Plugin in Prüfung), Cursor (MDC + MCP + VS Code-Erweiterung auf OpenVSX), Cline, Continue.dev, Aider, Windsurf, Zed und OpenAI Codex CLI. Eine Installation, ein Graph, alle Tools profitieren.
- Lokal-first: Die SQLite-Datenbank befindet sich unter
.engram/graph.dbin Ihrem Repository. Nichts verlässt Ihren Rechner. Lizenz unter Apache 2.0. Kein Konto, keine Telemetrie. - Installation:
npm install -g engramxdanncd ~/ihr-projektundengram setup. Für Cursor führen Siecode --install-extension nickcirv.engram-vscodeaus. - Tracking: Der Befehl
engram costzeigt die Token-Ersparnis pro Projekt und Woche. Nach 24 Stunden normaler Nutzung zeigt der Digest echte Zahlen. - Kommende v4.0 „Mesh + Spine“: Erscheint am 25. Mai. Optionale Föderationsschicht zum Teilen von Fehlern und ADRs zwischen Maschinen, ohne Quellcode zu teilen. Phase 1 bereits gemerged: ed25519-Identität, 14-Kategorie-PII-Gate, 1007 Tests.
Das Tool adressiert direkt das Erreichen der Claude Code Max 5x-Limits in unter 2 Stunden bei echter Arbeit – ein einziger komplexer Prompt ließ den Session-Zähler von 21 % auf 100 % springen.
📖 Vollständige Quelle lesen: r/ClaudeAI
👀 Siehe auch

OmniCoder-9B-Fine-Tuning zeigt eine starke Leistung für agentenbasiertes Codieren auf Systemen mit 8 GB VRAM.
Ein Reddit-Nutzer testete OmniCoder-9B, eine Feinabstimmung von Qwen3.5-9B auf Opus-Traces, mit OpenCode und berichtete von Geschwindigkeiten von über 40 Tokens pro Sekunde unter Verwendung der Q4_K_M GGUF-Quantisierung bei einer Kontextlänge von 100k auf einem System mit 8GB VRAM.

Der Human Creativity Benchmark: Trennung von Konvergenz und Divergenz in der KI-Kreativitätsbewertung
Contra Labs führt den Human Creativity Benchmark (HCB) ein, ein Framework, das objektiv überprüfbare Kriterien (z. B. Einhaltung der Aufgabenstellung) von subjektivem Geschmack (z. B. visuelle Anziehungskraft) bei der Bewertung generativer KI für kreative Arbeiten unterscheidet. Der Benchmark zeigt, dass kein aktuelles Modell zuverlässig sowohl korrekt als auch steuerbar ist, und adressiert Mode Collapse sowie die Notwendigkeit differenzierter Ergebnisse.
AIttache: Ein schreibgeschützter MCP-Server, der Ihre Produktion nicht zerstören kann
AIttache ist ein MCP-Server mit über 25 schreibgeschützten Konnektoren (Terminal, Server, Wetter, Steam), der physisch nichts ändern kann – entwickelt, um LLMs Log-Kontext ohne Autonomie zu bieten.

OmniRecall Beta: FAISS-gestützte Speicherinjektion für Cloud-LLM-Chats
OmniRecall ist eine lokale mitmproxy-Umgehung, die den Datenverkehr zu Cloud-Chat-Schnittstellen wie DeepSeek abfängt und eine permanente Speicherschicht mittels FAISS-Indexierung und sentence-transformers MiniLM-L6 hinzufügt. Es befindet sich derzeit in der Beta-Phase, erfordert CPU-only-Betrieb und verwendet eine aggressiv restriktive quelloffene Lizenz.