DocMason: Локальная база знаний агента для работы со сложными офисными файлами

Что делает DocMason
DocMason — это локальная, файловая система базы знаний, предназначенная для глубокого исследования частных рабочих документов. Основная концепция: «Репозиторий — это приложение. Codex — это среда выполнения». Он компилирует офисные файлы в структурированные пакеты доказательств, над которыми могут рассуждать ИИ-агенты, сохраняя строгое отслеживание происхождения.
Ключевые особенности из источника
- Обрабатывает несколько типов офисных документов: PPTX, DOCX, XLSX, PDF и даже файлы .EML
- Извлекает мультимодальную информацию, включая IT-архитектурные диаграммы и данные из таблиц Excel
- Сохраняет структуру документов и визуальную семантику (макеты слайдов, заметки докладчика, ссылки на таблицы, сигналы форматирования)
- Работает локально без облачной обработки или скрытых бэкендов
- Обеспечивает инкрементальную синхронизацию базы знаний при добавлении или изменении файлов
- Применяет строгие контракты данных и границы происхождения
Как это работает
DocMason функционирует как производственная среда выполнения, которая заставляет ИИ уважать исходную структуру документов. Вместо того чтобы сглаживать сложные файлы в неструктурированные текстовые блоки, он создает детерминированные файловые доказательства и запускает офлайн-алгоритмы поиска локально на вашем компьютере.
Начало работы
В источнике описаны два пути настройки:
Путь A (Начните с малого):
- Поместите рабочие файлы в папку
DocMason/original_doc/ - Откройте папку DocMason в Codex
- Задавайте вопросы естественным образом — DocMason проведет вас через настройку среды
- Подтверждает запросы при построении базы знаний
Путь B (Подготовьте целые папки):
- Поместите папки уровня отдела в
DocMason/original_doc/ - Откройте в Codex и скажите: «Пожалуйста, подготовьте среду DocMason.»
- Затем: «Пожалуйста, постройте базу знаний.»
- После завершения задавайте сложные исследовательские вопросы по всему корпусу
Система разработана так, что вам не нужно запоминать внутренние команды — просто общайтесь естественно с вашим ИИ-агентом в рабочей среде.
Технические детали
DocMason решает конкретные ограничения существующих инструментов для документов с ИИ:
- Сохраняет визуальный макет, заметки докладчика и связи между диаграммами и текстом в презентациях
- Поддерживает ссылки на несколько листов и вложенные таблицы в электронных таблицах
- Сохраняет семантику форматирования, например красный текст для «Риска» или отступы для иерархий
- Позволяет проводить междокументные рассуждения для многосоставных предложений
Структура репозитория включает адаптеры, knowledge_base, runtime, skills и sample_corpus директории, с конфигурацией, управляемой через файлы docmason.yaml и pyproject.toml.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Claude Code: Как подключить созданный с помощью ИИ фронтенд к реальному бэкенду
Claude Code создаёт красивые интерфейсы, но часто использует жёстко заданные данные. Вот четыре способа подключить его к реальным бэкендам: сырые API, SDK, CLI и MCP.

OpenClaw ПАРА Организационный Навык Автоматически Сортирует Файлы по Проектам, Областям, Ресурсам, Архивам
Разработчик создал навык OpenClaw, который внедряет метод организации PARA (Проекты, Области, Ресурсы, Архивы) для автоматической сортировки файлов и очистки загромождённых корневых каталогов.

Создание языка программирования с помощью Claude Code: эксперимент Cutlet
Анкур Сети создал полноценный язык программирования под названием Cutlet с помощью Claude Code за четыре недели, при этом ИИ генерировал каждую строку кода, а разработчик сосредоточился на создании защитных механизмов и тестировании. Язык обладает динамической типизацией, векторными операциями и REPL, работает на macOS и Linux.

АТЛАС: Адаптивная система обучения во время тестирования превосходит Claude Sonnet на бенчмарках по программированию с использованием GPU за $500.
ATLAS достигает 74,6% pass@1-v(k=3) на LiveCodeBench с замороженной 14B-моделью на одном потребительском GPU, превосходя результат Claude 4.5 Sonnet в 71,4% при значительно меньших затратах, используя генерацию на основе ограничений и само-верифицируемое итеративное уточнение.