Cursors Ansatz für schnelle Regex-Suche für KI-Agenten

Behandlung der Regex-Leistung in Agenten-Workflows
Cursor entwickelt eine indexierte Regex-Suche speziell für KI-Coding-Agenten, um einen Engpass zu beheben, bei dem traditionelle Regex-Tools wie ripgrep Workflows in großen Codebasen zum Stillstand bringen können. Das Problem ist besonders akut in Unternehmens-Monorepos, bei denen rg-Aufrufe häufig 15 Sekunden überschreiten und die interaktive Führung durch KI-Agenten unterbrechen.
Das Kernproblem mit aktuellen Tools
Die meisten KI-Agenten-Frameworks, einschließlich dem von Cursor, verwenden standardmäßig ripgrep für die Regex-Suche. Obwohl ripgrep mit sinnvollen Standardeinstellungen für das Ignorieren von Dateien eine bessere Leistung als klassisches grep bietet, hat es eine grundlegende Einschränkung: Es muss den Inhalt aller Dateien scannen. Dies wird in großen Codebasen problematisch, wo Entwickler Echtzeit-Interaktion mit KI-Agenten benötigen.
Indexierter Ansatz basierend auf klassischer Forschung
Der Indexierungsansatz baut auf Forschung auf, die erstmals 1993 von Zobel, Moffat und Sacks-Davis in "Searching Large Lexicons for Partially Specified Terms using Compressed Inverted Files" veröffentlicht wurde. Diese Methode verwendet N-Gramme (Zeichenkettensegmente mit n Zeichen), um invertierte Indizes zu erstellen, mit Heuristiken zum Zerlegen regulärer Ausdrücke in Bäume von N-Grammen, die im Index nachgeschlagen werden können.
Wie invertierte Indizes funktionieren
Ein invertierter Index ist die grundlegende Datenstruktur hinter Suchmaschinen. Dokumente werden durch Tokenisierung in Tokens aufgeteilt (in diesem Fall einzelne Wörter als Tokens). Diese Tokens werden zu Schlüsseln in einer wörterbuchähnlichen Struktur, wobei die Werte Posting-Listen sind, die alle Dokumente identifizieren, die jedes Token enthalten. Bei der Suche nach mehreren Tokens lädt das System ihre Posting-Listen und schneidet sie, um Dokumente zu finden, die alle angegebenen Begriffe enthalten.
Der Ansatz ist analog dazu, wie traditionelle IDEs syntaktische Indizes für Operationen wie "Gehe zu Definition" erstellen, aber speziell auf die Regex-Suchoperationen ausgerichtet, die moderne KI-Agenten bei der Textsuche durchführen.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Claude AI entwickelte in Stunden einen UFO-Datenvisualisierer mit Regierungsdaten
Ein Reddit-Nutzer hat mit Claude AI einen Full-Stack-UFO-Sichtungs-Visualizer aus neu veröffentlichten Daten des US-Kriegsministeriums erstellt, der auf Cloudflare gehostet wird – und das in nur wenigen Stunden.

Scalpel v2.0: Codebase-Scanner und KI-Agenten-Orchestrator
Scalpel v2.0 ist ein Open-Source-Tool, das Codebasen in 12 Dimensionen scannt und maßgeschneiderte KI-Agenten-Teams zusammenstellt. Es enthält einen reinen Bash-Scanner, der ohne KI-Tokens läuft und mit Claude Code, Codex, Gemini, Cursor, Windsurf, Aider und OpenCode funktioniert.

Claude Code Karma: Lokales Observability-Dashboard für Claude Code-Sitzungen
Claude Code Karma ist ein Open-Source-Lokaldashboard, das JSONL-Dateien aus ~/.claude/ analysiert, um Claude-Code-Sitzungsdaten zu visualisieren, Tool-Nutzung zu verfolgen und stille Fehler zu überwachen. Entwickelt mit FastAPI, Svelte-Kit 2, Svelte 5 und SQLite bietet es vollständige Sitzungszeitpläne und Live-Tracking.

Verwendung von OpenAI Codex IDE mit lokalen Ollama-Modellen in VSCodium
Der OpenAI Codex IDE kann so konfiguriert werden, dass er mit lokalen Ollama-Modellen in VSCodium arbeitet, indem spezifische Konfigurationen in der config.toml-Datei verwendet werden.