KI-Codeabruf: Warum Vektor-Embeddings scheitern und dateiweise LLM-Graphen gewinnen

Ein einjähriges Experiment zum Aufbau eines Code-Indexierungssystems für KI-Codierungstools lieferte klare Ergebnisse: Vektor-Embeddings auf Code-Chunks und Tree-Sitter-AST-Parsing haben beide kritische Schwächen, während pro-Datei-LLM-Analysen, gespeichert in einem Neo4j-Graphen mit semantischer Volltextsuche, am besten funktionieren. Die Erkenntnisse decken sich mit aktuellen Arbeiten wie RepoGraph (ICLR 2025) und Code-Craft.
Getestete Ansätze
- Vektor-Embeddings auf Code-Chunks – vollständig verworfen. Eine Funktion namens
process()in einem Zahlungsdienst und eine in einer Bildverarbeitungspipeline ergeben ähnliche Embeddings, obwohl sie nichts miteinander zu tun haben. Vektoren glätten Call-Graphen, Vererbung, Importe – alle strukturellen Beziehungen. Die Retrieval-Präzision war inakzeptabel. - Tree-Sitter-AST-Parsing – präzise und schnell, aber rein strukturell. Es kann sagen, dass eine Funktion existiert und was sie aufruft, aber nicht die Frage beantworten: „Diese Funktion verarbeitet Webhook-Wiederholungen für fehlgeschlagene Stripe-Zahlungen.“ Es versagt, wenn Entwickler Fragen in Geschäftssprache formulieren.
- Pro-Datei-LLM-Analyse → Graph – funktioniert. Jede Datei erhält einen LLM-Aufruf, der
purpose,summaryundbusinessContextgeneriert, gespeichert als Knoten in Neo4j mit Kanten zu Klassen, Funktionen, Schlüsselwörtern und Importen. Das Retrieval verwendet Volltextsuche über diese semantischen Felder anstelle von Vektorähnlichkeit. SHA-256-Diffing beschränkt die Neuindizierung auf geänderte Dateien, wodurch die anfänglichen Kosten überschaubar bleiben.
Benchmarks aus der Literatur
RepoGraph (ICLR 2025) zeigte eine +32,8% Verbesserung bei SWE-bench mit Graph-Ansätzen. Code-Craft erreichte +82% Top-1-Retrieval-Präzision durch Bottom-up-LLM-Zusammenfassungen aus Code-Graphen.
Vergleich mit bestehenden Tools
Das Team veröffentlichte einen direkten Vergleich in comparison.md. Wesentliche Unterschiede:
- Bytebell: Pro-Datei-LLM → purpose + summary + businessContext + Entitäten; Neo4j + MongoDB-Speicher; SHA-256-diff-bewusste Neuindizierung.
- PageIndex: Inhaltsverzeichnis-Baum für lange PDFs/Dokumente; keine codespezifischen Semantiken.
- GitNexus: Tree-Sitter-AST + Community-Erkennung; optionale pro-Symbol-Semantiken; verwendet LadybugDB.
- GraphRAG: Pro-Chunk-LLM-Entitäten + Community-Clustering für allgemeinen Text, nicht für Code.
- Sourcegraph/Cody: LSIF/SCIP-Suchindex; keine pro-Knoten-Semantiken; Bereitstellung als Self-Hosted oder SaaS.
- Augment: Proprietärer semantischer Index mit Embeddings; nur SaaS; kontinuierliche, verwaltete Indizierung.
Open Source
Das System ist Open Source unter github.com/ByteBell/bytebell-oss.
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Lokale Sprach-zu-Text-Transkription für OpenClaw mit Parakeet TDT 0.6b v3
Ein Entwickler hat NVIDIAs Parakeet TDT 0.6b v3 Modell so konvertiert, dass es lokal über ONNX auf der CPU läuft und 25 europäische Sprachen unterstützt. Das Modell stellt über einen Docker-Container einen OpenAI-kompatiblen API-Endpunkt bereit, was die Integration mit OpenClaw für die Transkription von Audiodateien ermöglicht.

Open-Source Agent OS: Rust-basiertes Betriebssystem für KI-Agenten mit WASM-Sandboxing und Hands-Funktion
Ein Open-Source-Betriebssystem für KI-Agenten wurde veröffentlicht, das 137.000 Zeilen Rust-Code unter MIT-Lizenz enthält. Das System führt Agenten in WASM-Sandboxen mit 16 Sicherheitsebenen aus und führt 'Hands' für geplante, autonome Agentenoperationen ein.

AGI in md: 11 kognitive Komprimierungsstufen für Claude-Systemprompts
Ein GitHub-Repository dokumentiert 11 Stufen kognitiver Kompression, die in Claude-Systemprompts kodiert werden können, wobei Stufe 8 von der Analyse zur Konstruktion wechselt und Haikus Leistung von 0/3 auf 4/4 verbessert. Das Projekt umfasst 28 Prompts, 299 Rohausgaben und vollständige Experimentprotokolle über 19 Domänen hinweg.

ConnectSafely AI MCP Server verbindet LinkedIn mit Claude für direkte Steuerung
ConnectSafely AI bietet einen MCP-Server, der LinkedIn direkt mit Claude verbindet und es Nutzern ermöglicht, Nachrichten zu senden, nach Personen zu suchen, Profilbesucher zu überprüfen und Konversationen über Prompts zu verfolgen, ohne zwischen Tabs wechseln zu müssen.