Kreuzberg v4.7.0 fügt Code-Intelligenz für 248 Sprachen und verbesserte Markdown-Extraktion hinzu.

✍️ OpenClawRadar📅 Veröffentlicht: 14. April 2026🔗 Source
Kreuzberg v4.7.0 fügt Code-Intelligenz für 248 Sprachen und verbesserte Markdown-Extraktion hinzu.
Ad

Kreuzberg v4.7.0 ist jetzt verfügbar. Dies ist eine Rust-basierte Dokumentenintelligenz-Bibliothek, die mit Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C und WASM arbeitet.

Code-Intelligenz und -Extraktion

Das Hauptmerkmal ist die Code-Intelligenz und -Extraktion. Kreuzberg unterstützt nun 248 Formate über die tree-sitter-language-pack-Bibliothek. Dies ermöglicht effizientes Code-Parsing für die direkte Integration als Bibliothek für Agents und über MCP. Agents können mit Code-Repositories arbeiten, Pull-Requests überprüfen, Codebasen indexieren und Quelldateien analysieren.

Kreuzberg extrahiert auf AST-Ebene:

  • Funktionen
  • Klassen
  • Imports
  • Exports
  • Symbole
  • Docstrings

mit Code-Chunking, das Scope-Grenzen respektiert.

Verbesserungen der Markdown-Qualität

Schlechte Dokumentenextraktion kann zu Problemen in der Pipeline führen. Das Team erstellte einen Benchmark-Harness mit Structural F1 und Text F1 Scoring über mehr als 350 Dokumente und 23 Formate und optimierte darauf basierend.

Spezifische Verbesserungen:

  • LaTeX: verbessert von 0 % auf 100 % SF1
  • XLSX: erhöht von 30 % auf 100 % SF1
  • PDF-Tabellen-SF1: stieg von 15,5 % auf 53,7 %

Alle 23 Formate liegen nun bei über 80 % SF1. Die Ausgabe, die Pipelines erhalten, ist nun standardmäßig strukturell korrekt.

Ad

Weitere wichtige Funktionen

  • Neue Markdown-Rendering-Schicht und neue HTML-Ausgabeunterstützung
  • OpenWebUI-Integration als Dokumentenextraktions-Backend
  • Optionen für docling-serve-Kompatibilität oder direkte Verbindung
  • Einheitliche Architektur, bei der jeder Extractor eine standardisierte typisierte Dokumentendarstellung erstellt
  • TOON-Wire-Format - eine kompakte Dokumentencodierung, die die LLM-Prompt-Token-Nutzung um 30 bis 50 % reduziert
  • Semantische Chunk-Kennzeichnung
  • JSON-Ausgabe
  • Strenge Konfigurationsvalidierung
  • Verbesserte Sicherheit

Verfügbarkeit

Kreuzberg ist auf GitHub verfügbar: https://github.com/kreuzberg-dev/kreuzberg

Kreuzberg Cloud wird bald verfügbar sein - eine gehostete Version für Teams, die die gleiche Extraktionsqualität ohne Infrastrukturverwaltung wünschen. Weitere Informationen unter: https://kreuzberg.dev

Beiträge sind willkommen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

SkyClaw führt verschlüsselte Chat-basierte API-Schlüssel-Einrichtung für KI-Agenten ein
Werkzeuge

SkyClaw führt verschlüsselte Chat-basierte API-Schlüssel-Einrichtung für KI-Agenten ein

SkyClaw implementiert die AES-256-GCM-verschlüsselte Schlüsselaufnahme über Chat, indem Schlüsselbefehle auf Systemebene abgefangen werden, sodass das LLM niemals API-Schlüssel sieht, und Einmalschlüsselverschlüsselung verwendet wird, sodass Messaging-Plattformen nur Chiffretext sehen.

OpenClawRadar
Ruflo: Open-Source-Plattform zum Betrieb mehrerer KI-Agenten als Team
Werkzeuge

Ruflo: Open-Source-Plattform zum Betrieb mehrerer KI-Agenten als Team

Ruflo ist eine Open-Source-Plattform, mit der Sie viele KI-Agenten zusammenarbeiten lassen können, um als Team an komplexen Aufgaben zu arbeiten. Früher als Claude Flow bekannt, hilft es bei der Koordination von Workflows, bei denen Aufgaben in Teile zerlegt werden müssen.

OpenClawRadar
Kontextmodus: Ein MCP-Server, der Tool-Ausgaben für Claude Code komprimiert
Werkzeuge

Kontextmodus: Ein MCP-Server, der Tool-Ausgaben für Claude Code komprimiert

Context Mode ist ein MCP-Server, der zwischen Claude Code und Tool-Ausgaben sitzt, diese in Sandboxes verarbeitet und nur Zusammenfassungen zurückgibt. Er reduziert 315 KB MCP-Ausgabe auf 5,4 KB und verlängert die Sitzungszeit vor Verlangsamung von ~30 Minuten auf ~3 Stunden.

OpenClawRadar
Alternative KI-Codierungseinrichtung nach der Preiserhöhung von Claude
Werkzeuge

Alternative KI-Codierungseinrichtung nach der Preiserhöhung von Claude

Ein Entwickler teilt seine aktuelle KI-Codierungseinrichtung mit GPT 5.4 als primärem Modell, Codex als Backup inklusive im ChatGPT-Abonnement und Minimax 2.7 als zusätzliche Absicherung mit Coding-Plan-Preisen.

OpenClawRadar