Semble: Ein lokaler MCP-Server für Claude Code mit 98% Token-Reduktion

Semble ist ein MCP-Server, der es Claude Code ermöglicht, lokale Codebasen effizient zu durchsuchen und nur relevante Code-Ausschnitte anstelle ganzer Dateien zurückzugeben. Es verwendet eine Hybridlösung aus statischen Embeddings, BM25 und einem codeoptimierten Reranking-Stack, der alles lokal auf der CPU läuft – ohne API-Keys, GPU oder schwere Abhängigkeiten.
Installation
Installation via uvx:
claude mcp add semble -s user -- uvx --from "semble[mcp]" semble
Nach der Installation kann Claude Code jedes Repository – lokal oder remote – direkt durchsuchen.
Wichtige Details
- Token-Reduktion: Verbraucht ~98% weniger Token als die übliche grep+read-Methode.
- Leistung: Indiziert jedes Repository in ~250ms, beantwortet Abfragen in ~1,5ms (alles auf CPU).
- Qualität: Erreicht einen NDCG@10 von 0,854 – 99% des besten getesteten Transformer-Hybrids, bei ~200-facher Geschwindigkeit.
- Benchmark-Vergleiche: Getestet gegen grepai, probe, colgrep und andere bestehende Methoden.
- Open Source: Verfügbar auf GitHub unter der MinishLab-Organisation.
Für wen es gedacht ist
Entwickler, die Claude Code auf großen Codebasen verwenden und Tokenverbrauch sowie Latenz reduzieren möchten, bei gleichzeitig hochwertigen Codesuchergebnissen ohne externe API-Aufrufe.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

EsoLang-Bench: Ein Programmier-Benchmark, der esoterische Sprachen verwendet, um das logische Denken von LLMs zu testen
Forscher entwickelten EsoLang-Bench, einen Programmier-Benchmark, der exotische Programmiersprachen wie Brainfuck und Whitespace nutzt, um zu testen, ob LLMs tatsächlich logisch denken oder nur Muster erkennen. Das beste Ergebnis über GPT-5.2, O4-mini, Gemini, Qwen und Kimi lag bei 11,2 %.

Ansatz zur selbstverbessernden Speicherfähigkeit in lokalen KI-Agenten
Ein Entwickler teilt seinen Ansatz für persistenten Speicher für lokale KI-Agenten, der Markdown-Dateien als Single Source of Truth nutzt, Episodenbewertung mit konfidenzbasierten Regeln durchführt und Vertrauenseskalation basierend auf Genehmigungsmustern ermöglicht.

Verwendung eines lokalen LLM als Claude-Code-Subagent zur Reduzierung des Kontextverbrauchs
Ein Reddit-Nutzer zeigt, wie Claude Code Aufgaben an ein lokales LLM delegieren kann, das über LM Studio läuft, wobei der Dateiinhalt außerhalb von Claudes Kontext bleibt. Das Setup verwendet ein Python-Skript mit etwa 120 Zeilen und die Tool-Calling-API von LM Studio, um Dateioperationen lokal zu handhaben.

Visuelle Eingabe-Framework ersetzt Text-Eingaben durch ein einzelnes Bild für Claude AI
Das Carrying-Capacity-Prinzip v9 ist ein bidirektionales Strukturrahmenwerk, das für Claude AI ein einzelnes Flussdiagrammbild anstelle von Textaufforderungen verwendet. Es bietet strukturelle Diagnosen oder generative Konstruktionspläne basierend auf Systemparametern oder Zielen.