Kreuzberg v4.7.0: Código para 248 idiomas y mejor markdown

Kreuzberg v4.7.0 ya está disponible. Esta es una biblioteca de inteligencia de documentos con núcleo en Rust que funciona con Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C y WASM.

Inteligencia y Extracción de Código

El principal punto destacado es la inteligencia y extracción de código. Kreuzberg ahora admite 248 formatos a través de la biblioteca tree-sitter-language-pack. Esto permite un análisis eficiente del código para una integración directa como biblioteca para agentes y mediante MCP. Los agentes pueden trabajar con repositorios de código, revisar solicitudes de extracción, indexar bases de código y analizar archivos fuente.

Kreuzberg extrae a nivel de AST:

Funciones
Clases
Importaciones
Exportaciones
Símbolos
Docstrings

con fragmentación de código que respeta los límites de alcance.

Mejoras en la Calidad de Markdown

Una extracción deficiente de documentos puede generar problemas en el flujo de trabajo posterior. El equipo creó un sistema de evaluación comparativa utilizando puntuaciones Structural F1 y Text F1 en más de 350 documentos y 23 formatos, y luego optimizó en base a eso.

Mejoras específicas:

LaTeX: mejoró del 0% al 100% SF1
XLSX: aumentó del 30% al 100% SF1
Tablas PDF SF1: pasó del 15.5% al 53.7%

Todos los 23 formatos ahora están por encima del 80% SF1. Los flujos de salida que recibe el pipeline ahora son estructuralmente correctos por defecto.

Otras Características Clave

Nueva capa de renderizado de markdown y nuevo soporte de salida HTML
Integración con OpenWebUI como backend de extracción de documentos
Opciones para compatibilidad con docling-serve o conexión directa
Arquitectura unificada donde cada extractor crea una representación de documento tipada estándar
Formato de cable TOON: una codificación de documento compacta que reduce el uso de tokens de prompt en LLM entre un 30% y un 50%
Etiquetado semántico de fragmentos
Salida JSON
Validación estricta de configuración
Seguridad mejorada

Disponibilidad

Kreuzberg está disponible en GitHub: https://github.com/kreuzberg-dev/kreuzberg

Kreuzberg Cloud estará disponible pronto: una versión alojada para equipos que desean la misma calidad de extracción sin gestionar infraestructura. Más información en: https://kreuzberg.dev

Las contribuciones son bienvenidas.

📖 Read the full source: r/LocalLLaMA

Kreuzberg v4.7.0 añade inteligencia de código para 248 idiomas y una extracción de markdown mejorada.

Inteligencia y Extracción de Código

Mejoras en la Calidad de Markdown

Otras Características Clave

Disponibilidad

👀 Ver también

Canalización de Contenido Multiagente para Código Claude con Puertas de Calidad

CtxSnap Extensión de VS Code Rastrea Cambios de Archivos para Sesiones de Claude

Servidor MCP de Claude Garmin: Datos Reales de Fitness para Asesoramiento de Entrenamiento más Inteligente

Mundo: Simulación de Vida Artificial de Final Abierto con Redes Neuronales Evolutivas