Kreuzberg v4.7.0은 248개 언어에 대한 코드 인텔리전스를 추가하고 마크다운 추출 기능을 개선했습니다.

✍️ OpenClawRadar📅 게시일: April 14, 2026🔗 Source
Kreuzberg v4.7.0은 248개 언어에 대한 코드 인텔리전스를 추가하고 마크다운 추출 기능을 개선했습니다.
Ad

Kreuzberg v4.7.0이 출시되었습니다. 이는 Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C, WASM과 함께 작동하는 Rust 기반 문서 인텔리전스 라이브러리입니다.

코드 인텔리전스 및 추출

주요 하이라이트는 코드 인텔리전스와 추출 기능입니다. Kreuzberg는 이제 tree-sitter-language-pack 라이브러리를 통해 248가지 형식을 지원합니다. 이를 통해 에이전트용 라이브러리로 직접 통합하거나 MCP를 통해 효율적인 코드 파싱이 가능해집니다. 에이전트는 코드 저장소 작업, 풀 리퀘스트 검토, 코드베이스 색인 생성, 소스 파일 분석 등을 수행할 수 있습니다.

Kreuzberg는 AST 수준에서 다음을 추출합니다:

  • 함수
  • 클래스
  • 임포트
  • 익스포트
  • 심볼
  • 독스트링

스코프 경계를 존중하는 코드 청킹 기능을 제공합니다.

마크다운 품질 개선

불량한 문서 추출은 파이프라인 하류에서 문제를 일으킬 수 있습니다. 팀은 350개 이상의 문서와 23가지 형식에 걸쳐 구조적 F1 및 텍스트 F1 점수를 사용한 벤치마크 하니스를 만들고 이를 기반으로 최적화를 수행했습니다.

구체적인 개선 사항:

  • LaTeX: 0%에서 100% SF1로 개선
  • XLSX: 30%에서 100% SF1로 증가
  • PDF 테이블 SF1: 15.5%에서 53.7%로 향상

이제 23가지 형식 모두 80% 이상의 SF1 점수를 기록합니다. 파이프라인이 수신하는 출력은 기본적으로 구조적으로 정확합니다.

Ad

기타 주요 기능

  • 새로운 마크다운 렌더링 레이어 및 새로운 HTML 출력 지원
  • OpenWebUI 통합을 문서 추출 백엔드로 제공
  • docling-serve 호환성 옵션 또는 직접 연결 옵션
  • 모든 추출기가 표준 타입 문서 표현을 생성하는 통합 아키텍처
  • TOON 와이어 형식 - LLM 프롬프트 토큰 사용량을 30~50% 줄이는 간결한 문서 인코딩
  • 의미론적 청크 라벨링
  • JSON 출력
  • 엄격한 구성 검증
  • 향상된 보안

사용 가능성

Kreuzberg는 GitHub에서 사용 가능합니다: https://github.com/kreuzberg-dev/kreuzberg

Kreuzberg Cloud가 곧 출시될 예정입니다 - 인프라 관리 없이 동일한 추출 품질을 원하는 팀을 위한 호스팅 버전입니다. 자세한 정보: https://kreuzberg.dev

기여를 환영합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Heren Godot MCP: 지속형 웹소켓 데몬, AI-고도트 상호작용 지연 시간을 약 20ms로 단축
Tools

Heren Godot MCP: 지속형 웹소켓 데몬, AI-고도트 상호작용 지연 시간을 약 20ms로 단축

Heren은 Godot용 새로운 MCP 서버로, 경량 WebSocket 데몬을 유지하여 전체 엔진 콜드 스타트를 기다리지 않고 약 20ms의 작업을 수행합니다. 씬 관리, 디버깅, GPU 가속 스크린샷 및 3분간 비활성 상태 시 자동 종료 등 15가지 도구를 제공합니다.

OpenClawRadar
Eqho: Claude 코드 세션을 위한 로컬 음성-텍스트 앱
Tools

Eqho: Claude 코드 세션을 위한 로컬 음성-텍스트 앱

Eqho는 OpenAI의 Whisper 모델을 로컬에서 사용하여 음성 입력을 포커스된 애플리케이션에 타이핑하는 무료 오픈소스 음성-텍스트 변환 앱입니다. 현재는 Windows 전용이며 명령줄 설정이 필요합니다.

OpenClawRadar
로컬 저장소와 그래프 기반 검색을 갖춘 지속적인 AI 에이전트 메모리를 위한 오픈소스 프레임워크
Tools

로컬 저장소와 그래프 기반 검색을 갖춘 지속적인 AI 에이전트 메모리를 위한 오픈소스 프레임워크

개발자가 로컬에서 Markdown 파일로 데이터를 저장하고, 위키 링크를 그래프 엣지로 사용하며, Git을 버전 관리에 활용하는 지속적인 AI 에이전트 메모리를 위한 오픈소스 프레임워크를 구축 중입니다. 이 시스템은 4가지 신호 검색과 ACT-R 인지과학 기반의 그래프 인식 망각 기능을 갖추고 있습니다.

OpenClawRadar
코딩 에이전트의 조용한 도구 오류: 숨겨진 효율성 손실
Tools

코딩 에이전트의 조용한 도구 오류: 숨겨진 효율성 손실

코딩 에이전트는 종종 도구 실패를 인지하지 못합니다. 실패 시 대체 전략으로 전환하여 토큰을 낭비하고 품질을 저하시키기 때문입니다. 오픈소스 도구 Vibeyard는 이러한 실패를 감지하고 수정 사항을 제안합니다.

OpenClawRadar