Kreuzberg v4.7.0 ajoute l'intelligence du code pour 248 langues et une extraction markdown améliorée.

✍️ OpenClawRadar📅 Publié: April 14, 2026🔗 Source
Kreuzberg v4.7.0 ajoute l'intelligence du code pour 248 langues et une extraction markdown améliorée.
Ad

Kreuzberg v4.7.0 est désormais disponible. Il s'agit d'une bibliothèque d'intelligence documentaire basée sur Rust qui fonctionne avec Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C et WASM.

Intelligence et extraction de code

Le point principal est l'intelligence et l'extraction de code. Kreuzberg prend désormais en charge 248 formats grâce à la bibliothèque tree-sitter-language-pack. Cela permet un analyse efficace du code pour une intégration directe en tant que bibliothèque pour les agents et via MCP. Les agents peuvent travailler avec des dépôts de code, examiner les demandes de fusion, indexer les bases de code et analyser les fichiers sources.

Kreuzberg extrait au niveau de l'AST :

  • Fonctions
  • Classes
  • Imports
  • Exports
  • Symboles
  • Docstrings

avec un découpage du code qui respecte les limites de portée.

Améliorations de la qualité du Markdown

Une mauvaise extraction de document peut entraîner des problèmes en aval. L'équipe a créé un banc d'essai utilisant les scores F1 structurel et F1 texte sur plus de 350 documents et 23 formats, puis a optimisé en fonction de cela.

Améliorations spécifiques :

  • LaTeX : amélioré de 0 % à 100 % SF1
  • XLSX : augmenté de 30 % à 100 % SF1
  • SF1 des tableaux PDF : passé de 15,5 % à 53,7 %

Tous les 23 formats sont désormais à plus de 80 % SF1. Les pipelines de sortie reçoivent désormais par défaut des structures correctes.

Ad

Autres fonctionnalités clés

  • Nouvelle couche de rendu markdown et nouvelle prise en charge de la sortie HTML
  • Intégration OpenWebUI en tant que backend d'extraction de documents
  • Options pour la compatibilité docling-serve ou connexion directe
  • Architecture unifiée où chaque extracteur crée une représentation de document typée standard
  • Format filaire TOON - un encodage de document compact qui réduit l'utilisation de tokens de prompt LLM de 30 à 50 %
  • Étiquetage sémantique des segments
  • Sortie JSON
  • Validation stricte de la configuration
  • Sécurité améliorée

Disponibilité

Kreuzberg est disponible sur GitHub : https://github.com/kreuzberg-dev/kreuzberg

Kreuzberg Cloud sera bientôt disponible - une version hébergée pour les équipes qui souhaitent la même qualité d'extraction sans gérer l'infrastructure. Plus d'informations sur : https://kreuzberg.dev

Les contributions sont les bienvenues.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Développeur Teste Qwen3.5 27B face à des Modèles Plus Grands pour des Tâches de Codage Locales
Tools

Développeur Teste Qwen3.5 27B face à des Modèles Plus Grands pour des Tâches de Codage Locales

Un développeur a testé plusieurs modèles Qwen3.5 et Nemotron, constatant que Qwen3.5-27B-GGUF:UD-Q6_K_XL fonctionne bien pour les tâches de développement sur du matériel existant 2x RTX 3090, avec 803 pp et 25 tg/s pour un contexte de 256k sur vast.ai.

OpenClawRadar
MCP-Loci : Serveur de mémoire persistante locale pour Claude et les IA compatibles MCP
Tools

MCP-Loci : Serveur de mémoire persistante locale pour Claude et les IA compatibles MCP

MCP-Loci est un serveur de mémoire persistante qui résout la limitation de mémoire basée sur les sessions de Claude avec cinq outils : remember, recall, forget, synthesize et health. Il utilise une combinaison d'appariement par mots-clés BM25 et d'incorporations sémantiques pour un rappel précis sans nécessiter de clés API.

OpenClawRadar
Demande de Fonctionnalité pour Claude Desktop : Crochet de Démarrage de Session pour l'Initialisation Automatique
Tools

Demande de Fonctionnalité pour Claude Desktop : Crochet de Démarrage de Session pour l'Initialisation Automatique

Un développeur créant des systèmes de contexte persistant pour Claude Desktop identifie un manque : le champ Préférences utilisateur n'injecte des instructions que lorsque l'utilisateur envoie le premier message, nécessitant des déclencheurs manuels pour l'initialisation. Il propose d'ajouter un champ d'exécution "Au démarrage de la session" qui s'exécute automatiquement à l'ouverture d'une nouvelle conversation.

OpenClawRadar
Loom : Un harnais d'exécution local pour les tâches d'IA complexes
Tools

Loom : Un harnais d'exécution local pour les tâches d'IA complexes

Loom est un harnais d'exécution local open-source conçu pour gérer des tâches complexes en fournissant un processus structuré avec environ 50 outils, un système de plugins de packages personnalisés pour des workflows reproductibles, et des interfaces CLI et serveur MCP.

OpenClawRadar