Kreuzberg v4.7.0 adiciona inteligência de código para 248 idiomas e extração aprimorada de markdown

Kreuzberg v4.7.0 já está disponível. Esta é uma biblioteca de inteligência de documentos com núcleo em Rust que funciona com Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C e WASM.
Inteligência e Extração de Código
O principal destaque é a inteligência e extração de código. Kreuzberg agora suporta 248 formatos através da biblioteca tree-sitter-language-pack. Isso permite análise eficiente de código para integração direta como biblioteca para agentes e via MCP. Agentes podem trabalhar com repositórios de código, revisar pull requests, indexar bases de código e analisar arquivos fonte.
Kreuzberg extrai no nível AST:
- Funções
- Classes
- Imports
- Exports
- Símbolos
- Docstrings
com divisão de código que respeita os limites de escopo.
Melhorias na Qualidade do Markdown
Uma extração de documentos ruim pode causar problemas no pipeline. A equipe criou um sistema de benchmark usando pontuações Structural F1 e Text F1 em mais de 350 documentos e 23 formatos, então otimizou com base nisso.
Melhorias específicas:
- LaTeX: melhorou de 0% para 100% SF1
- XLSX: aumentou de 30% para 100% SF1
- SF1 de tabelas PDF: foi de 15,5% para 53,7%
Todos os 23 formatos estão agora com mais de 80% SF1. O pipeline de saída recebe agora estruturalmente correto por padrão.
Outras Funcionalidades Principais
- Nova camada de renderização markdown e novo suporte a saída HTML
- Integração OpenWebUI como backend de extração de documentos
- Opções para compatibilidade com docling-serve ou conexão direta
- Arquitetura unificada onde cada extrator cria uma representação de documento tipada padrão
- Formato de fio TOON - uma codificação de documento compacta que reduz o uso de tokens de prompt LLM em 30 a 50%
- Rotulação semântica de fragmentos
- Saída JSON
- Validação de configuração rigorosa
- Segurança aprimorada
Disponibilidade
Kreuzberg está disponível no GitHub: https://github.com/kreuzberg-dev/kreuzberg
Kreuzberg Cloud será lançado em breve - uma versão hospedada para equipes que desejam a mesma qualidade de extração sem gerenciar infraestrutura. Mais informações em: https://kreuzberg.dev
Contribuições são bem-vindas.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Agente de IA Local Alcança Latência de STT e TTS em Sub-Segundos com Servidores de Código Aberto
Um desenvolvedor alcançou ~0,2s de latência STT usando Whisper large-v3-turbo com arquitetura híbrida de GPU gerenciada por threads e ~250ms de latência TTS com Coqui-TTS otimizado para síntese de baixa latência. Ambas as implementações são totalmente auto-hospedadas e de código aberto.

Bibliotecário MCP: Servidor de IA Local para Contexto Persistente com Documentos
Librarian MCP é um servidor de Model Context Protocol de código aberto que roda localmente e se conecta ao Jan, LM Studio ou Claude Desktop, permitindo que modelos de IA pesquisem e analisem coleções de documentos enquanto mantêm o contexto completo da conversa e a privacidade dos dados.

Desenvolvedor Testa Qwen3.5 27B em Comparação com Modelos Maiores para Tarefas Locais de Programação
Um desenvolvedor testou vários modelos Qwen3.5 e Nemotron, descobrindo que o Qwen3.5-27B-GGUF:UD-Q6_K_XL tem bom desempenho para tarefas de desenvolvimento no hardware existente de 2x RTX 3090, com 803 pp e 25 tg/s em contexto de 256k no vast.ai.

Plugin Aprimorado do Claude Code para Telegram Adiciona Voz, Figurinhas e Tópicos
Um desenvolvedor lançou um fork do plugin oficial do Claude Code para Telegram que adiciona transcrição de mensagens de voz via Whisper, suporte a adesivos/GIFs, encadeamento de conversas e reações com emojis. É uma substituição direta que requer apenas clonar, copiar um arquivo e reiniciar.