Regex-Suche in großen Monorepos: Cursor's neuer Ansatz

Behandlung der Regex-Leistung in Agenten-Workflows

Cursor entwickelt eine indexierte Regex-Suche speziell für KI-Coding-Agenten, um einen Engpass zu beheben, bei dem traditionelle Regex-Tools wie ripgrep Workflows in großen Codebasen zum Stillstand bringen können. Das Problem ist besonders akut in Unternehmens-Monorepos, bei denen rg-Aufrufe häufig 15 Sekunden überschreiten und die interaktive Führung durch KI-Agenten unterbrechen.

Das Kernproblem mit aktuellen Tools

Die meisten KI-Agenten-Frameworks, einschließlich dem von Cursor, verwenden standardmäßig ripgrep für die Regex-Suche. Obwohl ripgrep mit sinnvollen Standardeinstellungen für das Ignorieren von Dateien eine bessere Leistung als klassisches grep bietet, hat es eine grundlegende Einschränkung: Es muss den Inhalt aller Dateien scannen. Dies wird in großen Codebasen problematisch, wo Entwickler Echtzeit-Interaktion mit KI-Agenten benötigen.

Indexierter Ansatz basierend auf klassischer Forschung

Der Indexierungsansatz baut auf Forschung auf, die erstmals 1993 von Zobel, Moffat und Sacks-Davis in "Searching Large Lexicons for Partially Specified Terms using Compressed Inverted Files" veröffentlicht wurde. Diese Methode verwendet N-Gramme (Zeichenkettensegmente mit n Zeichen), um invertierte Indizes zu erstellen, mit Heuristiken zum Zerlegen regulärer Ausdrücke in Bäume von N-Grammen, die im Index nachgeschlagen werden können.

Wie invertierte Indizes funktionieren

Ein invertierter Index ist die grundlegende Datenstruktur hinter Suchmaschinen. Dokumente werden durch Tokenisierung in Tokens aufgeteilt (in diesem Fall einzelne Wörter als Tokens). Diese Tokens werden zu Schlüsseln in einer wörterbuchähnlichen Struktur, wobei die Werte Posting-Listen sind, die alle Dokumente identifizieren, die jedes Token enthalten. Bei der Suche nach mehreren Tokens lädt das System ihre Posting-Listen und schneidet sie, um Dokumente zu finden, die alle angegebenen Begriffe enthalten.

Der Ansatz ist analog dazu, wie traditionelle IDEs syntaktische Indizes für Operationen wie "Gehe zu Definition" erstellen, aber speziell auf die Regex-Suchoperationen ausgerichtet, die moderne KI-Agenten bei der Textsuche durchführen.

📖 Read the full source: HN AI Agents

Cursors Ansatz für schnelle Regex-Suche für KI-Agenten

Behandlung der Regex-Leistung in Agenten-Workflows

Das Kernproblem mit aktuellen Tools

Indexierter Ansatz basierend auf klassischer Forschung

Wie invertierte Indizes funktionieren

👀 Siehe auch

SkyClaw v2.2 Rust AI Agent Runtime fügt OpenAI OAuth und benutzerdefinierte Tool-Erstellung hinzu

Kubeez MCP Server verbindet Claude mit über 70 KI-Medienmodellen

BuddyBoard: Eine Wettbewerbsbestenliste für die /buddy-Funktion von Claude Code

Outworked v0.3.0 fügt iMessage-Unterstützung, einen integrierten Browser und Terminplanung für Claude Code-Agents hinzu.