Kreuzberg v4.7.0 fügt Code-Intelligenz für 248 Sprachen und verbesserte Markdown-Extraktion hinzu.

Kreuzberg v4.7.0 ist jetzt verfügbar. Dies ist eine Rust-basierte Dokumentenintelligenz-Bibliothek, die mit Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C und WASM arbeitet.
Code-Intelligenz und -Extraktion
Das Hauptmerkmal ist die Code-Intelligenz und -Extraktion. Kreuzberg unterstützt nun 248 Formate über die tree-sitter-language-pack-Bibliothek. Dies ermöglicht effizientes Code-Parsing für die direkte Integration als Bibliothek für Agents und über MCP. Agents können mit Code-Repositories arbeiten, Pull-Requests überprüfen, Codebasen indexieren und Quelldateien analysieren.
Kreuzberg extrahiert auf AST-Ebene:
- Funktionen
- Klassen
- Imports
- Exports
- Symbole
- Docstrings
mit Code-Chunking, das Scope-Grenzen respektiert.
Verbesserungen der Markdown-Qualität
Schlechte Dokumentenextraktion kann zu Problemen in der Pipeline führen. Das Team erstellte einen Benchmark-Harness mit Structural F1 und Text F1 Scoring über mehr als 350 Dokumente und 23 Formate und optimierte darauf basierend.
Spezifische Verbesserungen:
- LaTeX: verbessert von 0 % auf 100 % SF1
- XLSX: erhöht von 30 % auf 100 % SF1
- PDF-Tabellen-SF1: stieg von 15,5 % auf 53,7 %
Alle 23 Formate liegen nun bei über 80 % SF1. Die Ausgabe, die Pipelines erhalten, ist nun standardmäßig strukturell korrekt.
Weitere wichtige Funktionen
- Neue Markdown-Rendering-Schicht und neue HTML-Ausgabeunterstützung
- OpenWebUI-Integration als Dokumentenextraktions-Backend
- Optionen für docling-serve-Kompatibilität oder direkte Verbindung
- Einheitliche Architektur, bei der jeder Extractor eine standardisierte typisierte Dokumentendarstellung erstellt
- TOON-Wire-Format - eine kompakte Dokumentencodierung, die die LLM-Prompt-Token-Nutzung um 30 bis 50 % reduziert
- Semantische Chunk-Kennzeichnung
- JSON-Ausgabe
- Strenge Konfigurationsvalidierung
- Verbesserte Sicherheit
Verfügbarkeit
Kreuzberg ist auf GitHub verfügbar: https://github.com/kreuzberg-dev/kreuzberg
Kreuzberg Cloud wird bald verfügbar sein - eine gehostete Version für Teams, die die gleiche Extraktionsqualität ohne Infrastrukturverwaltung wünschen. Weitere Informationen unter: https://kreuzberg.dev
Beiträge sind willkommen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

SkyClaw führt verschlüsselte Chat-basierte API-Schlüssel-Einrichtung für KI-Agenten ein
SkyClaw implementiert die AES-256-GCM-verschlüsselte Schlüsselaufnahme über Chat, indem Schlüsselbefehle auf Systemebene abgefangen werden, sodass das LLM niemals API-Schlüssel sieht, und Einmalschlüsselverschlüsselung verwendet wird, sodass Messaging-Plattformen nur Chiffretext sehen.

Ruflo: Open-Source-Plattform zum Betrieb mehrerer KI-Agenten als Team
Ruflo ist eine Open-Source-Plattform, mit der Sie viele KI-Agenten zusammenarbeiten lassen können, um als Team an komplexen Aufgaben zu arbeiten. Früher als Claude Flow bekannt, hilft es bei der Koordination von Workflows, bei denen Aufgaben in Teile zerlegt werden müssen.

Kontextmodus: Ein MCP-Server, der Tool-Ausgaben für Claude Code komprimiert
Context Mode ist ein MCP-Server, der zwischen Claude Code und Tool-Ausgaben sitzt, diese in Sandboxes verarbeitet und nur Zusammenfassungen zurückgibt. Er reduziert 315 KB MCP-Ausgabe auf 5,4 KB und verlängert die Sitzungszeit vor Verlangsamung von ~30 Minuten auf ~3 Stunden.

Alternative KI-Codierungseinrichtung nach der Preiserhöhung von Claude
Ein Entwickler teilt seine aktuelle KI-Codierungseinrichtung mit GPT 5.4 als primärem Modell, Codex als Backup inklusive im ChatGPT-Abonnement und Minimax 2.7 als zusätzliche Absicherung mit Coding-Plan-Preisen.