jsongrep: Ein DFA-basiertes JSON-Abfragewerkzeug, das jq in Benchmarks übertrifft

Was jsongrep tut
jsongrep (jg-Binary) nimmt eine Abfrage und eine JSON-Eingabe und gibt jeden Wert aus, dessen Pfad durch das Dokument der Abfrage entspricht. Es behandelt JSON-Dokumente als Bäume, in denen Objekte und Arrays verzweigen, Skalare Blätter sind und Schlüssel sowie Indizes die Kanten beschriften. Die Abfragesprache ist eine reguläre Sprache über dem Alphabet von Schlüsseln und Indizes.
Merkmale der Abfragesprache
Punktpfade wählen verschachtelte Felder nach Namen aus: jg 'roommates[0].name' gibt roommates.[0].name: "Alice" zurück.
Wildcards passen auf jeden einzelnen Schlüssel (*) oder jeden Array-Index ([*]): jg 'favorite_drinks[*]' gibt alle Array-Elemente zurück.
Alternation (|) passt auf einen von zwei Zweigen: jg 'name | roommates' gibt beide Felder zurück.
Rekursiver Abstieg verwendet * und [*] innerhalb eines Kleene-Sterns, um beliebig tief zu gehen: jg '(* | [*])*.name' findet jedes Namensfeld in beliebiger Tiefe. Das Flag -F bietet eine Kurzform: jg -F name tut dasselbe.
Optional (?) passt auf null oder ein Vorkommen: jg 'roommates[0].favorite_food?' gibt sowohl das Elternobjekt als auch den Feldwert zurück.
Technischer Ansatz
jsongrep kompiliert Abfragen in deterministische endliche Automaten (DFA) mithilfe einer Pipeline, die umfasst: Parsen der Abfrage, Behandeln von JSON als Baum, Konstruieren eines NFA mit Glushkovs Algorithmus, Determinierung durch Subset-Konstruktion und Suche mit DFS und DFA-Übergängen. Dies ermöglicht die Verarbeitung in einem einzigen Durchlauf mit O(1)-Arbeit pro Eingabesymbol, wodurch Backtracking, Rekursionsstapel und exponentielles Anwachsen bei pathologischen Abfragen vermieden werden.
Der Autor weist darauf hin, dass sich dies grundlegend von Tools wie jq, jmespath oder jsonpath-rust unterscheidet, die Pfadausdrücke interpretieren, Abfragen an jedem Knoten auswerten, Prädikate prüfen und rekursiv absteigen – wobei möglicherweise Teilbäume erneut besucht oder Arbeitslisten mit rekursiven Abstiegsabfragen verwaltet werden.
Installation und Verfügbarkeit
Installation von crates.io: cargo install jsongrep. Wie ripgrep (das das Projekt inspiriert hat) ist jsongrep plattformübergreifend mit verfügbaren Binärdateien und in Rust geschrieben.
Das Tool erkennt, ob die Ausgabe an Befehle wie less oder sort weitergeleitet wird, und lässt JSON-Pfade standardmäßig weg (überschreibbar mit der Option --with-path).
📖 Read the full source: HN LLM Tools
👀 Siehe auch

Tether: Ein MCP-Server zum Austausch von Kontext zwischen KI-Modellen über SQLite
Tether ist ein Open-Source-Tool, das JSON-Daten auf 28-Byte inhaltsadressierte Handles reduziert, wodurch mehrere KI-Modelle Kontext über eine gemeinsame SQLite-Datenbank teilen können. Es fungiert als MCP-Server und ermöglicht die direkte Kommunikation zwischen Modellen wie Claude und MiniMax ohne Kopieren und Einfügen.

Open-Source-Persistenzspeichersystem für Claude Code löst Kontextverlust zwischen Sitzungen
Ein Entwickler hat ein dateibasiertes Speichersystem für Claude Code erstellt, das automatisch Projektkontext erfasst, ohne Plugins oder API-Schlüssel zu benötigen. Es nutzt Konversationsprotokolle, eine Eingangsdatei und nächtliche Cron-Jobs, um dauerhaften Speicher über Sitzungen hinweg zu erhalten.

Warum ein einzelnes run()-Tool mit Unix-Befehlen Funktionsaufrufe für KI-Agenten schlägt
Ein Backend-Lead mit zwei Jahren Erfahrung im Aufbau von Agenten argumentiert, dass ein einzelnes run(command="...")-Tool mit Unix-artigen CLI-Befehlen traditionelle Funktionsaufrufkataloge übertrifft. Der Ansatz nutzt die bereits vorhandene Vertrautheit von LLMs mit Shell-Befehlen aus den Trainingsdaten.

wmux: Electron Terminal Multiplexer für Windows mit Browsersteuerung über MCP
wmux ist ein Open-Source-Elektronen-Terminal-Multiplexer für Windows 10/11, der tmux-ähnliche Aufteilungen, persistente Sitzungen und Browsersteuerung über das Chrome DevTools Protocol für KI-Codierungsagenten wie Claude Code bietet. Er registriert sich automatisch als MCP-Server und ermöglicht es Agenten, mit Browsern zu interagieren, während mehrere Sitzungen nebeneinander laufen.