Lokale Buchübersetzungs-Pipeline nutzt Qwen 32B und Mistral 24B mit kontextuellem RAG

✍️ OpenClawRadar📅 Veröffentlicht: 1. April 2026🔗 Source
Lokale Buchübersetzungs-Pipeline nutzt Qwen 32B und Mistral 24B mit kontextuellem RAG
Ad

Ein Entwickler hat eine vollständig lokale, automatisierte Buchübersetzungs-Pipeline erstellt, die PDF-Dateien mit acht Python-Skripten in das ePub-Format konvertiert. Das System löst häufige Übersetzungsprobleme wie Kontextverlust und Formatierungsfehler durch einen mehrstufigen Arbeitsablauf.

Details zum Arbeitsablauf

Die Pipeline besteht aus acht Skripten, die den gesamten Prozess abdecken:

  • PDF-Extraktion: Nutzt Marker, um Inhalte aus PDFs zu extrahieren und dabei Formatierungselemente wie fettgedruckten Text, Kapitel und Bilder zu erhalten
  • Textsegmentierung: Teilt den extrahierten Text in handliche Abschnitte auf
  • Kontexterstellung: Vor der Übersetzung werden Auszüge aus dem gesamten Buch an Qwen 32B gesendet, um eine "Super-Bibel" zu erstellen – ein globales Glossar mit Charakteren, Ton und Atmosphäre
  • Übersetzung: Qwen 32B übersetzt jeden Textabschnitt unter Bezugnahme auf die Super-Bibel, um Konsistenz zu gewährleisten
  • Stilbearbeitung: Mistral 24B fungiert als Lektor, überprüft Qwens Übersetzungen und formuliert sie für einen perfekten literarischen Stil um
  • Zusammenfügung: Ein abschließendes Skript setzt alle übersetzten Abschnitte wieder zusammen, fügt Bilder erneut ein und nutzt Pandoc zur Ausgabe einer polierten ePub-Datei
Ad

Automatisierungsfunktionen

Das System enthält ein Überwachungsskript, das einen bestimmten Ordner beobachtet. Benutzer legen einfach eine PDF in diesen Ordner, und die Pipeline verarbeitet sie automatisch. Nach mehreren Stunden gibt das System sowohl die übersetzte ePub-Datei als auch einen Beleg mit der Verarbeitungszeit aus.

Der Entwickler merkt an, dass die Ergebnisse überraschend effektiv sind, wenn auch nicht zu 100 % perfekt, und erwähnt mehrere Verbesserungsideen. Das gesamte System läuft lokal auf einem persönlichen Computer, ohne externe Dienste zu benötigen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch