Kreuzberg v4.7.0 adiciona inteligência de código para 248 idiomas e extração aprimorada de markdown

✍️ OpenClawRadar📅 Publicado: April 14, 2026🔗 Source
Kreuzberg v4.7.0 adiciona inteligência de código para 248 idiomas e extração aprimorada de markdown
Ad

Kreuzberg v4.7.0 já está disponível. Esta é uma biblioteca de inteligência de documentos com núcleo em Rust que funciona com Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C e WASM.

Inteligência e Extração de Código

O principal destaque é a inteligência e extração de código. Kreuzberg agora suporta 248 formatos através da biblioteca tree-sitter-language-pack. Isso permite análise eficiente de código para integração direta como biblioteca para agentes e via MCP. Agentes podem trabalhar com repositórios de código, revisar pull requests, indexar bases de código e analisar arquivos fonte.

Kreuzberg extrai no nível AST:

  • Funções
  • Classes
  • Imports
  • Exports
  • Símbolos
  • Docstrings

com divisão de código que respeita os limites de escopo.

Melhorias na Qualidade do Markdown

Uma extração de documentos ruim pode causar problemas no pipeline. A equipe criou um sistema de benchmark usando pontuações Structural F1 e Text F1 em mais de 350 documentos e 23 formatos, então otimizou com base nisso.

Melhorias específicas:

  • LaTeX: melhorou de 0% para 100% SF1
  • XLSX: aumentou de 30% para 100% SF1
  • SF1 de tabelas PDF: foi de 15,5% para 53,7%

Todos os 23 formatos estão agora com mais de 80% SF1. O pipeline de saída recebe agora estruturalmente correto por padrão.

Ad

Outras Funcionalidades Principais

  • Nova camada de renderização markdown e novo suporte a saída HTML
  • Integração OpenWebUI como backend de extração de documentos
  • Opções para compatibilidade com docling-serve ou conexão direta
  • Arquitetura unificada onde cada extrator cria uma representação de documento tipada padrão
  • Formato de fio TOON - uma codificação de documento compacta que reduz o uso de tokens de prompt LLM em 30 a 50%
  • Rotulação semântica de fragmentos
  • Saída JSON
  • Validação de configuração rigorosa
  • Segurança aprimorada

Disponibilidade

Kreuzberg está disponível no GitHub: https://github.com/kreuzberg-dev/kreuzberg

Kreuzberg Cloud será lançado em breve - uma versão hospedada para equipes que desejam a mesma qualidade de extração sem gerenciar infraestrutura. Mais informações em: https://kreuzberg.dev

Contribuições são bem-vindas.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Agente de IA Local Alcança Latência de STT e TTS em Sub-Segundos com Servidores de Código Aberto
Tools

Agente de IA Local Alcança Latência de STT e TTS em Sub-Segundos com Servidores de Código Aberto

Um desenvolvedor alcançou ~0,2s de latência STT usando Whisper large-v3-turbo com arquitetura híbrida de GPU gerenciada por threads e ~250ms de latência TTS com Coqui-TTS otimizado para síntese de baixa latência. Ambas as implementações são totalmente auto-hospedadas e de código aberto.

OpenClawRadar
Bibliotecário MCP: Servidor de IA Local para Contexto Persistente com Documentos
Tools

Bibliotecário MCP: Servidor de IA Local para Contexto Persistente com Documentos

Librarian MCP é um servidor de Model Context Protocol de código aberto que roda localmente e se conecta ao Jan, LM Studio ou Claude Desktop, permitindo que modelos de IA pesquisem e analisem coleções de documentos enquanto mantêm o contexto completo da conversa e a privacidade dos dados.

OpenClawRadar
Desenvolvedor Testa Qwen3.5 27B em Comparação com Modelos Maiores para Tarefas Locais de Programação
Tools

Desenvolvedor Testa Qwen3.5 27B em Comparação com Modelos Maiores para Tarefas Locais de Programação

Um desenvolvedor testou vários modelos Qwen3.5 e Nemotron, descobrindo que o Qwen3.5-27B-GGUF:UD-Q6_K_XL tem bom desempenho para tarefas de desenvolvimento no hardware existente de 2x RTX 3090, com 803 pp e 25 tg/s em contexto de 256k no vast.ai.

OpenClawRadar
Plugin Aprimorado do Claude Code para Telegram Adiciona Voz, Figurinhas e Tópicos
Tools

Plugin Aprimorado do Claude Code para Telegram Adiciona Voz, Figurinhas e Tópicos

Um desenvolvedor lançou um fork do plugin oficial do Claude Code para Telegram que adiciona transcrição de mensagens de voz via Whisper, suporte a adesivos/GIFs, encadeamento de conversas e reações com emojis. É uma substituição direta que requer apenas clonar, copiar um arquivo e reiniciar.

OpenClawRadar