Kreuzberg v4.7.0: Code-Intelligenz für 248 Sprachen

Kreuzberg v4.7.0 ist jetzt verfügbar. Dies ist eine Rust-basierte Dokumentenintelligenz-Bibliothek, die mit Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C und WASM arbeitet.

Code-Intelligenz und -Extraktion

Das Hauptmerkmal ist die Code-Intelligenz und -Extraktion. Kreuzberg unterstützt nun 248 Formate über die tree-sitter-language-pack-Bibliothek. Dies ermöglicht effizientes Code-Parsing für die direkte Integration als Bibliothek für Agents und über MCP. Agents können mit Code-Repositories arbeiten, Pull-Requests überprüfen, Codebasen indexieren und Quelldateien analysieren.

Kreuzberg extrahiert auf AST-Ebene:

Funktionen
Klassen
Imports
Exports
Symbole
Docstrings

mit Code-Chunking, das Scope-Grenzen respektiert.

Verbesserungen der Markdown-Qualität

Schlechte Dokumentenextraktion kann zu Problemen in der Pipeline führen. Das Team erstellte einen Benchmark-Harness mit Structural F1 und Text F1 Scoring über mehr als 350 Dokumente und 23 Formate und optimierte darauf basierend.

Spezifische Verbesserungen:

LaTeX: verbessert von 0 % auf 100 % SF1
XLSX: erhöht von 30 % auf 100 % SF1
PDF-Tabellen-SF1: stieg von 15,5 % auf 53,7 %

Alle 23 Formate liegen nun bei über 80 % SF1. Die Ausgabe, die Pipelines erhalten, ist nun standardmäßig strukturell korrekt.

Weitere wichtige Funktionen

Neue Markdown-Rendering-Schicht und neue HTML-Ausgabeunterstützung
OpenWebUI-Integration als Dokumentenextraktions-Backend
Optionen für docling-serve-Kompatibilität oder direkte Verbindung
Einheitliche Architektur, bei der jeder Extractor eine standardisierte typisierte Dokumentendarstellung erstellt
TOON-Wire-Format - eine kompakte Dokumentencodierung, die die LLM-Prompt-Token-Nutzung um 30 bis 50 % reduziert
Semantische Chunk-Kennzeichnung
JSON-Ausgabe
Strenge Konfigurationsvalidierung
Verbesserte Sicherheit

Verfügbarkeit

Kreuzberg ist auf GitHub verfügbar: https://github.com/kreuzberg-dev/kreuzberg

Kreuzberg Cloud wird bald verfügbar sein - eine gehostete Version für Teams, die die gleiche Extraktionsqualität ohne Infrastrukturverwaltung wünschen. Weitere Informationen unter: https://kreuzberg.dev

Beiträge sind willkommen.

📖 Read the full source: r/LocalLLaMA