Kreuzberg v4.7.0 añade inteligencia de código para 248 idiomas y una extracción de markdown mejorada.

✍️ OpenClawRadar📅 Publicado: 14 de abril de 2026🔗 Source
Kreuzberg v4.7.0 añade inteligencia de código para 248 idiomas y una extracción de markdown mejorada.
Ad

Kreuzberg v4.7.0 ya está disponible. Esta es una biblioteca de inteligencia de documentos con núcleo en Rust que funciona con Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C y WASM.

Inteligencia y Extracción de Código

El principal punto destacado es la inteligencia y extracción de código. Kreuzberg ahora admite 248 formatos a través de la biblioteca tree-sitter-language-pack. Esto permite un análisis eficiente del código para una integración directa como biblioteca para agentes y mediante MCP. Los agentes pueden trabajar con repositorios de código, revisar solicitudes de extracción, indexar bases de código y analizar archivos fuente.

Kreuzberg extrae a nivel de AST:

  • Funciones
  • Clases
  • Importaciones
  • Exportaciones
  • Símbolos
  • Docstrings

con fragmentación de código que respeta los límites de alcance.

Mejoras en la Calidad de Markdown

Una extracción deficiente de documentos puede generar problemas en el flujo de trabajo posterior. El equipo creó un sistema de evaluación comparativa utilizando puntuaciones Structural F1 y Text F1 en más de 350 documentos y 23 formatos, y luego optimizó en base a eso.

Mejoras específicas:

  • LaTeX: mejoró del 0% al 100% SF1
  • XLSX: aumentó del 30% al 100% SF1
  • Tablas PDF SF1: pasó del 15.5% al 53.7%

Todos los 23 formatos ahora están por encima del 80% SF1. Los flujos de salida que recibe el pipeline ahora son estructuralmente correctos por defecto.

Ad

Otras Características Clave

  • Nueva capa de renderizado de markdown y nuevo soporte de salida HTML
  • Integración con OpenWebUI como backend de extracción de documentos
  • Opciones para compatibilidad con docling-serve o conexión directa
  • Arquitectura unificada donde cada extractor crea una representación de documento tipada estándar
  • Formato de cable TOON: una codificación de documento compacta que reduce el uso de tokens de prompt en LLM entre un 30% y un 50%
  • Etiquetado semántico de fragmentos
  • Salida JSON
  • Validación estricta de configuración
  • Seguridad mejorada

Disponibilidad

Kreuzberg está disponible en GitHub: https://github.com/kreuzberg-dev/kreuzberg

Kreuzberg Cloud estará disponible pronto: una versión alojada para equipos que desean la misma calidad de extracción sin gestionar infraestructura. Más información en: https://kreuzberg.dev

Las contribuciones son bienvenidas.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

htmLLM-124M v2 Lanzado: Modelo Especializado de Autocompletado HTML/Bootstrap
Herramientas

htmLLM-124M v2 Lanzado: Modelo Especializado de Autocompletado HTML/Bootstrap

LH-Tech-AI lanzó htmLLM-124M v2, un modelo de 124M de parámetros especializado en autocompletado de HTML/Bootstrap que logra una pérdida de validación de 0.91 y se entrena en ~8 horas en una sola GPU T4.

OpenClawRadar
Automatiza las reuniones diarias en podcasts personales de Spotify con OpenClaw y la CLI de Save to Spotify
Herramientas

Automatiza las reuniones diarias en podcasts personales de Spotify con OpenClaw y la CLI de Save to Spotify

OpenClaw se ejecuta diariamente a las 7 a.m., extrae hilos de Slack + notificaciones de GitHub + calendario, los resume en mp3 y los sube como un episodio privado mediante la CLI Save to Spotify. Funciona en Free y Premium.

OpenClawRadar
Tres servidores MCP para investigación en comercio electrónico con Claude: herramientas de Shopify, Amazon y Google Maps.
Herramientas

Tres servidores MCP para investigación en comercio electrónico con Claude: herramientas de Shopify, Amazon y Google Maps.

Un desarrollador creó tres servidores MCP para que Claude analice tiendas Shopify sin claves API, evalúe oportunidades de productos en Amazon y encuentre/califique clientes potenciales de negocios locales desde Google Maps. Todos están disponibles en Apify.

OpenClawRadar
Cómo Mendral redujo los costos de LLM al actualizar a Opus: Patrón de Triaje, Acceso SQL y Arquitectura de Subagentes
Herramientas

Cómo Mendral redujo los costos de LLM al actualizar a Opus: Patrón de Triaje, Acceso SQL y Arquitectura de Subagentes

Mendral pasó de Sonnet a Opus 4.6 para el análisis de fallos de CI, pero redujo costos mediante el uso de un triador Haiku que desvía el 80% de los fallos, dando a los agentes acceso SQL a ClickHouse en lugar de enviar registros, y generando subagentes baratos para hacer la investigación real.

OpenClawRadar