Kreuzberg 4.7.0 : Extraction Code 248 Langues, Markdown Meilleur

Kreuzberg v4.7.0 est désormais disponible. Il s'agit d'une bibliothèque d'intelligence documentaire basée sur Rust qui fonctionne avec Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C et WASM.

Intelligence et extraction de code

Le point principal est l'intelligence et l'extraction de code. Kreuzberg prend désormais en charge 248 formats grâce à la bibliothèque tree-sitter-language-pack. Cela permet un analyse efficace du code pour une intégration directe en tant que bibliothèque pour les agents et via MCP. Les agents peuvent travailler avec des dépôts de code, examiner les demandes de fusion, indexer les bases de code et analyser les fichiers sources.

Kreuzberg extrait au niveau de l'AST :

Fonctions
Classes
Imports
Exports
Symboles
Docstrings

avec un découpage du code qui respecte les limites de portée.

Améliorations de la qualité du Markdown

Une mauvaise extraction de document peut entraîner des problèmes en aval. L'équipe a créé un banc d'essai utilisant les scores F1 structurel et F1 texte sur plus de 350 documents et 23 formats, puis a optimisé en fonction de cela.

Améliorations spécifiques :

LaTeX : amélioré de 0 % à 100 % SF1
XLSX : augmenté de 30 % à 100 % SF1
SF1 des tableaux PDF : passé de 15,5 % à 53,7 %

Tous les 23 formats sont désormais à plus de 80 % SF1. Les pipelines de sortie reçoivent désormais par défaut des structures correctes.

Autres fonctionnalités clés

Nouvelle couche de rendu markdown et nouvelle prise en charge de la sortie HTML
Intégration OpenWebUI en tant que backend d'extraction de documents
Options pour la compatibilité docling-serve ou connexion directe
Architecture unifiée où chaque extracteur crée une représentation de document typée standard
Format filaire TOON - un encodage de document compact qui réduit l'utilisation de tokens de prompt LLM de 30 à 50 %
Étiquetage sémantique des segments
Sortie JSON
Validation stricte de la configuration
Sécurité améliorée

Disponibilité

Kreuzberg est disponible sur GitHub : https://github.com/kreuzberg-dev/kreuzberg

Kreuzberg Cloud sera bientôt disponible - une version hébergée pour les équipes qui souhaitent la même qualité d'extraction sans gérer l'infrastructure. Plus d'informations sur : https://kreuzberg.dev

Les contributions sont les bienvenues.

📖 Read the full source: r/LocalLLaMA