Pipeline de Traduction de Livres Locale Utilise Qwen 32B et Mistral 24B avec RAG Contextuel

Un développeur a créé un pipeline de traduction de livres entièrement local et automatisé qui convertit des fichiers PDF au format ePub en utilisant huit scripts Python. Le système aborde les problèmes courants de traduction comme la perte de contexte et les problèmes de mise en forme grâce à un flux de travail en plusieurs étapes.
Détails du flux de travail
Le pipeline se compose de huit scripts qui gèrent l'ensemble du processus :
- Extraction PDF : Utilise Marker pour extraire le contenu des PDF tout en préservant les éléments de mise en forme comme le texte en gras, les chapitres et les images
- Segmentation du texte : Divise le texte extrait en segments gérables
- Création de contexte : Avant la traduction, envoie des extraits de tout le livre à Qwen 32B pour générer une "Super Bible" - un glossaire global contenant les personnages, le ton et l'atmosphère
- Traduction : Qwen 32B traduit chaque segment de texte tout en se référant à la Super Bible pour maintenir la cohérence
- Édition de style : Mistral 24B agit comme un éditeur, révisant les traductions de Qwen et les réécrivant pour un style littéraire parfait
- Assemblage : Un script final réassemble tous les segments traduits, réinsère les images et utilise Pandoc pour produire un fichier ePub finalisé
Fonctionnalités d'automatisation
Le système inclut un script de surveillance qui surveille un dossier désigné. Les utilisateurs déposent simplement un PDF dans ce dossier, et le pipeline le traite automatiquement. Après plusieurs heures, le système produit à la fois l'ePub traduit et un reçu indiquant le temps de traitement.
Le développeur note que les résultats sont étonnamment efficaces, bien que pas parfaits à 100 %, et mentionne avoir plusieurs idées d'amélioration. L'ensemble du système fonctionne localement sur un ordinateur personnel sans nécessiter de services externes.
📖 Read the full source: r/LocalLLaMA
👀 See Also

gui.new : Outil permettant à Claude de générer des sorties visuelles sous forme de liens partageables
gui.new est un outil qui permet à Claude de générer des sorties visuelles sous forme de liens partageables en direct au lieu de renvoyer des blocs de code. Il est construit avec Claude, utilise Next.js sur Vercel avec Supabase, et ne nécessite aucune inscription.

Kit de démarrage Next.js open source ajoute des garde-fous et des instructions d'agent pour prévenir le contenu IA générique
Un nouveau boilerplate Next.js inclut l'authentification, la base de données, l'IC, les tests et les instructions Claude Code prêts à l'emploi, destiné aux développeurs utilisant des agents de codage IA pour créer plus rapidement des applications de production.

iai-mcp : Un démon local offre à Claude une mémoire persistante entre sessions avec 99% de rappel
iai-mcp est un démon local open-source qui capture chaque conversation Claude, l'organise en trois niveaux de mémoire et réinjecte le contexte dans les nouvelles sessions. Il atteint un rappel textuel de >99 %, une récupération en moins de 100 ms et un coût de démarrage de session inférieur à 3 000 tokens.

Fino : Serveur MCP Open-Source pour l'Analyse de Finance Personnelle avec Claude
Fino est un serveur MCP gratuit et open-source qui connecte Claude aux comptes bancaires via Plaid, stocke les données de transactions localement dans SQLite, et fournit à Claude des outils pour l'analyse financière.