Kreuzberg v4.7.0: Extração de Código para 248 Idiomas

Kreuzberg v4.7.0 já está disponível. Esta é uma biblioteca de inteligência de documentos com núcleo em Rust que funciona com Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C e WASM.

Inteligência e Extração de Código

O principal destaque é a inteligência e extração de código. Kreuzberg agora suporta 248 formatos através da biblioteca tree-sitter-language-pack. Isso permite análise eficiente de código para integração direta como biblioteca para agentes e via MCP. Agentes podem trabalhar com repositórios de código, revisar pull requests, indexar bases de código e analisar arquivos fonte.

Kreuzberg extrai no nível AST:

Funções
Classes
Imports
Exports
Símbolos
Docstrings

com divisão de código que respeita os limites de escopo.

Melhorias na Qualidade do Markdown

Uma extração de documentos ruim pode causar problemas no pipeline. A equipe criou um sistema de benchmark usando pontuações Structural F1 e Text F1 em mais de 350 documentos e 23 formatos, então otimizou com base nisso.

Melhorias específicas:

LaTeX: melhorou de 0% para 100% SF1
XLSX: aumentou de 30% para 100% SF1
SF1 de tabelas PDF: foi de 15,5% para 53,7%

Todos os 23 formatos estão agora com mais de 80% SF1. O pipeline de saída recebe agora estruturalmente correto por padrão.

Outras Funcionalidades Principais

Nova camada de renderização markdown e novo suporte a saída HTML
Integração OpenWebUI como backend de extração de documentos
Opções para compatibilidade com docling-serve ou conexão direta
Arquitetura unificada onde cada extrator cria uma representação de documento tipada padrão
Formato de fio TOON - uma codificação de documento compacta que reduz o uso de tokens de prompt LLM em 30 a 50%
Rotulação semântica de fragmentos
Saída JSON
Validação de configuração rigorosa
Segurança aprimorada

Disponibilidade

Kreuzberg está disponível no GitHub: https://github.com/kreuzberg-dev/kreuzberg

Kreuzberg Cloud será lançado em breve - uma versão hospedada para equipes que desejam a mesma qualidade de extração sem gerenciar infraestrutura. Mais informações em: https://kreuzberg.dev

Contribuições são bem-vindas.

📖 Read the full source: r/LocalLLaMA