Kreuzberg v4.7.0 añade inteligencia de código para 248 idiomas y una extracción de markdown mejorada.

Kreuzberg v4.7.0 ya está disponible. Esta es una biblioteca de inteligencia de documentos con núcleo en Rust que funciona con Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C y WASM.
Inteligencia y Extracción de Código
El principal punto destacado es la inteligencia y extracción de código. Kreuzberg ahora admite 248 formatos a través de la biblioteca tree-sitter-language-pack. Esto permite un análisis eficiente del código para una integración directa como biblioteca para agentes y mediante MCP. Los agentes pueden trabajar con repositorios de código, revisar solicitudes de extracción, indexar bases de código y analizar archivos fuente.
Kreuzberg extrae a nivel de AST:
- Funciones
- Clases
- Importaciones
- Exportaciones
- Símbolos
- Docstrings
con fragmentación de código que respeta los límites de alcance.
Mejoras en la Calidad de Markdown
Una extracción deficiente de documentos puede generar problemas en el flujo de trabajo posterior. El equipo creó un sistema de evaluación comparativa utilizando puntuaciones Structural F1 y Text F1 en más de 350 documentos y 23 formatos, y luego optimizó en base a eso.
Mejoras específicas:
- LaTeX: mejoró del 0% al 100% SF1
- XLSX: aumentó del 30% al 100% SF1
- Tablas PDF SF1: pasó del 15.5% al 53.7%
Todos los 23 formatos ahora están por encima del 80% SF1. Los flujos de salida que recibe el pipeline ahora son estructuralmente correctos por defecto.
Otras Características Clave
- Nueva capa de renderizado de markdown y nuevo soporte de salida HTML
- Integración con OpenWebUI como backend de extracción de documentos
- Opciones para compatibilidad con docling-serve o conexión directa
- Arquitectura unificada donde cada extractor crea una representación de documento tipada estándar
- Formato de cable TOON: una codificación de documento compacta que reduce el uso de tokens de prompt en LLM entre un 30% y un 50%
- Etiquetado semántico de fragmentos
- Salida JSON
- Validación estricta de configuración
- Seguridad mejorada
Disponibilidad
Kreuzberg está disponible en GitHub: https://github.com/kreuzberg-dev/kreuzberg
Kreuzberg Cloud estará disponible pronto: una versión alojada para equipos que desean la misma calidad de extracción sin gestionar infraestructura. Más información en: https://kreuzberg.dev
Las contribuciones son bienvenidas.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

htmLLM-124M v2 Lanzado: Modelo Especializado de Autocompletado HTML/Bootstrap
LH-Tech-AI lanzó htmLLM-124M v2, un modelo de 124M de parámetros especializado en autocompletado de HTML/Bootstrap que logra una pérdida de validación de 0.91 y se entrena en ~8 horas en una sola GPU T4.

Automatiza las reuniones diarias en podcasts personales de Spotify con OpenClaw y la CLI de Save to Spotify
OpenClaw se ejecuta diariamente a las 7 a.m., extrae hilos de Slack + notificaciones de GitHub + calendario, los resume en mp3 y los sube como un episodio privado mediante la CLI Save to Spotify. Funciona en Free y Premium.

Tres servidores MCP para investigación en comercio electrónico con Claude: herramientas de Shopify, Amazon y Google Maps.
Un desarrollador creó tres servidores MCP para que Claude analice tiendas Shopify sin claves API, evalúe oportunidades de productos en Amazon y encuentre/califique clientes potenciales de negocios locales desde Google Maps. Todos están disponibles en Apify.

Cómo Mendral redujo los costos de LLM al actualizar a Opus: Patrón de Triaje, Acceso SQL y Arquitectura de Subagentes
Mendral pasó de Sonnet a Opus 4.6 para el análisis de fallos de CI, pero redujo costos mediante el uso de un triador Haiku que desvía el 80% de los fallos, dando a los agentes acceso SQL a ClickHouse en lugar de enviar registros, y generando subagentes baratos para hacer la investigación real.