로컬 도서 번역 파이프라인, Qwen 32B와 Mistral 24B를 활용한 문맥 기반 RAG 적용

✍️ OpenClawRadar📅 게시일: April 1, 2026🔗 Source
로컬 도서 번역 파이프라인, Qwen 32B와 Mistral 24B를 활용한 문맥 기반 RAG 적용
Ad

한 개발자가 여덟 개의 파이썬 스크립트를 사용해 PDF 파일을 ePub 형식으로 변환하는 완전 로컬 자동화 도서 번역 파이프라인을 만들었습니다. 이 시스템은 다단계 워크플로우를 통해 문맥 손실과 형식 문제 같은 일반적인 번역 문제를 해결합니다.

워크플로우 상세

파이프라인은 전체 과정을 처리하는 여덟 개의 스크립트로 구성됩니다:

  • PDF 추출: 굵은 텍스트, 장, 이미지 같은 형식 요소를 보존하면서 Marker를 사용해 PDF에서 콘텐츠 추출
  • 텍스트 분할: 추출된 텍스트를 관리 가능한 청크로 분할
  • 문맥 생성: 번역 전에 책 전체에서 발췌한 내용을 Qwen 32B로 보내 캐릭터, 어조, 분위기를 포함한 "슈퍼 바이블"(글로벌 용어집) 생성
  • 번역: Qwen 32B가 슈퍼 바이블을 참조하며 각 텍스트 세그먼트 번역하여 일관성 유지
  • 스타일 편집: Mistral 24B가 편집자 역할을 하여 Qwen의 번역을 검토하고 완벽한 문학적 스타일로 재작성
  • 조립: 최종 스크립트가 모든 번역된 세그먼트를 재조립하고 이미지를 재삽입하며 Pandoc을 사용해 정제된 ePub 파일 출력

자동화 기능

이 시스템은 지정된 폴더를 감시하는 모니터링 스크립트를 포함합니다. 사용자는 단순히 PDF를 이 폴더에 드롭하면 파이프라인이 자동으로 처리합니다. 몇 시간 후 시스템은 번역된 ePub과 처리 시간을 보여주는 영수증을 모두 출력합니다.

개발자는 결과가 놀랍도록 효과적이지만 100% 완벽하지는 않으며, 여러 개선 아이디어가 있다고 언급했습니다. 전체 시스템은 외부 서비스 없이 개인 컴퓨터에서 로컬로 실행됩니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

퍼스트-트리: 클로드 코드를 이용해 수면 중 GitHub 알림을 분류하는 오픈소스 데몬
Tools

퍼스트-트리: 클로드 코드를 이용해 수면 중 GitHub 알림을 분류하는 오픈소스 데몬

메뉴 바에서 실행되는 오픈소스 데몬으로, Claude Code를 사용하여 GitHub 알림을 자율적으로 분류합니다. 최근 스캔에서 100개의 알림 중 98개를 처리하고 단 2개만 사람의 검토를 위해 남겼습니다.

OpenClawRadar
Sandbox0: AI 에이전트를 위한 오픈소스 쿠버네티스 네이티브 샌드박스 인프라
Tools

Sandbox0: AI 에이전트를 위한 오픈소스 쿠버네티스 네이티브 샌드박스 인프라

Sandbox0는 JuiceFS를 통한 영구 저장소와 자동 확장 기능을 갖춘 Kubernetes 기반의 AI 에이전트용 오픈소스 샌드박스 인프라입니다. 기존 솔루션에서 발견되는 동시성 제한 및 임시 실행과 같은 한계를 해결합니다.

OpenClawRadar
HN SOTA: 해커 뉴스 댓글로 코딩 모델 인기 추적하기
Tools

HN SOTA: 해커 뉴스 댓글로 코딩 모델 인기 추적하기

HN SOTA는 매일 업데이트되는 파이프라인으로, Hacker News 댓글을 스크래핑하고 Gemini를 사용하여 OpenRouter 목록에서 코딩 모델을 식별하며, 언급당 감정을 공개 Google 시트에 기록합니다. 10일 이동 창에서 언급 수가 가장 많은 상위 10개 모델이 표시됩니다.

OpenClawRadar
16GB Mac Mini M4에서 88개의 소형 GGUF 모델 벤치마킹
Tools

16GB Mac Mini M4에서 88개의 소형 GGUF 모델 벤치마킹

Mac Mini M4(16GB RAM)에서 88개의 GGUF 모델을 자동화 파이프라인으로 테스트한 결과, 9개 모델은 사용 불가능했으며, 속도와 품질 측면에서 파레토 최적선에 위치한 4개의 LFM2-8B-A1B MoE 모델을 확인했습니다.

OpenClawRadar