Локальный конвейер перевода книг использует модели Qwen 32B и Mistral 24B с контекстуальной системой RAG

Разработчик создал полностью локальный автоматизированный конвейер перевода книг, который преобразует файлы PDF в формат ePub с использованием восьми скриптов на Python. Система решает распространённые проблемы перевода, такие как потеря контекста и проблемы с форматированием, через многоэтапный рабочий процесс.
Детали рабочего процесса
Конвейер состоит из восьми скриптов, которые обрабатывают весь процесс:
- Извлечение PDF: Использует Marker для извлечения содержимого из PDF с сохранением элементов форматирования, таких как жирный текст, главы и изображения
- Сегментация текста: Разделяет извлечённый текст на управляемые фрагменты
- Создание контекста: Перед переводом отправляет отрывки из всей книги в Qwen 32B для создания «Супер-Библии» — глобального глоссария, содержащего персонажей, тон и атмосферу
- Перевод: Qwen 32B переводит каждый текстовый сегмент, обращаясь к Супер-Библии для поддержания согласованности
- Стилевая правка: Mistral 24B выступает в роли редактора, проверяя переводы Qwen и переписывая их для идеального литературного стиля
- Сборка: Финальный скрипт собирает все переведённые сегменты, вставляет обратно изображения и использует Pandoc для вывода отполированного файла ePub
Функции автоматизации
Система включает скрипт мониторинга, который отслеживает назначенную папку. Пользователи просто помещают PDF в эту папку, и конвейер автоматически обрабатывает его. Через несколько часов система выводит как переведённый ePub, так и квитанцию с временем обработки.
Разработчик отмечает, что результаты удивительно эффективны, хотя и не на 100% идеальны, и упоминает несколько идей для улучшения. Вся система работает локально на персональном компьютере без необходимости внешних сервисов.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

OpenProphet: Автономный торговый агент с открытым исходным кодом и веб-интерфейсом
OpenProphet — это открытый автономный торговый агент с веб-интерфейсом, который поддерживает одновременную работу с несколькими аккаунтами Alpaca и работает на OpenCode. Он позволяет настраивать персонажи агентов и стратегии, с возможностью использования любой LLM, а не только Claude.

OpenTrace: Самостоятельно размещаемый сервер мониторинга с более чем 75 инструментами MCP
OpenTrace — это самодостаточный сервер мониторинга, предоставляющий логи, аналитику пользователей и интроспекцию базы данных через 75+ инструментов MCP, работающий на VPS за $4 с хранением в SQLite и подключениями только для чтения к Postgres.

Бенчмарк квантизации Qwen 3.6 27B: Q4_K_M превосходит Q8_0 по практическим компромиссам
Оценка Qwen 3.6 27B в квантованиях BF16, Q4_K_M и Q8_0 GGUF на задачах HumanEval, HellaSwag и BFCL. Q4_K_M обеспечивает точность, близкую к BF16, при 48% меньшем потреблении RAM, скорости в 1,45 раза выше и размере файла на 68,8% меньше.

Фреймворк для ИИ-напарников в Slack, полностью управляемый из Claude Code
ginnie-agents — это фреймворк с открытым исходным кодом для запуска автономных AI-агентов с идентификацией в Slack, трехуровневой памятью, cron-задачами и рабочими часами — все настраивается и управляется через Claude Code. Требуются Claude Code Max, Docker, Node 22+ и рабочее пространство Slack с разрешениями на создание приложений.