Merlin: Локальное первое дедупликация контекста LLM – измерение до 71% перекрытия чанков, бесплатно и с открытым ядром

✍️ OpenClawRadar📅 Опубликовано: 13 мая 2026 г.🔗 Source
Merlin: Локальное первое дедупликация контекста LLM – измерение до 71% перекрытия чанков, бесплатно и с открытым ядром
Ad

Автор выпустил Merlin — локальный инструмент дедупликации для контекстных окон LLM. Тестирование на 22 миллионах пассажей из реальных сессий агентов и пайплайнов RAG показало 22% дублированного контента в типичном контексте агента и до 71% в запросах с интенсивным RAG. Для локальных моделей с контекстом 8K/16K/32K удаление избыточности означает, что больше полезных токенов помещается до усечения.

Три режима интеграции

1. Режим HTTP-прокси

Лучше всего подходит для Ollama, vLLM, SGLang, OpenWebUI, llama.cpp server или чего-либо с совместимым с OpenAI эндпоинтом. Запустите прокси локально и укажите клиенту http://localhost:8787/v1 вместо вашего сервера моделей. Дедупликация на уровне чанков происходит в исходящем запросе до отправки модели.

По умолчанию включен режим с учетом кэша: префикс беседы остается нетронутым (так что prefix-caching vLLM/SGLang по-прежнему работает), и дедуплицируется только последнее сообщение пользователя. Есть опциональный агрессивный режим, если частота попаданий в кэш уже низкая.

2. MCP-сервер

Для Claude Desktop, Claude Code, OpenClaw, Cursor. Предоставляет инструменты:

  • merlin_dedupe — дедупликация текста
  • merlin_dedupe_file — дедупликация содержимого файла
  • merlin_savings_summary — отображение статистики
  • merlin_status — проверка сервиса

Эти инструменты не вызываются автоматически; необходимо дать модели инструкцию вызывать их для больших вставок.

3. Автономный CLI

Для конвейеров оболочки и предварительной обработки. Однопоточный, бинарник ~250 КБ, без зависимостей времени выполнения, без сетевых вызовов. Принимает входной файл в аргументе и записывает дедуплицированные строки через --output-dedup=path.txt.

Ad

Установка (одна команда на конфигурацию)

curl -LO https://github.com/corbenicai/merlin-community/releases/latest/download/merlin-community.zip
unzip merlin-community.zip && cd merlin-community
python shared/install_helpers.py <integration> enable

Где <integration> может быть claude_desktop, claude_code, openclaw, cursor или proxy.

Измерения и компромиссы

  • Статьи: arXiv:2605.09611 (архитектура), arXiv:2605.09990 (измерение на 22M пассажах), Zenodo: 10.5281/zenodo.20090991
  • Лимиты сообщества: 50 МБ за запуск, 200 МБ в день, 2 ГБ в месяц. Четко отклоняет слишком большую работу (проверено на файле 51 МБ). Для любительского использования подходит.
  • Открытое ядро: Публичный репозиторий — это community edition; отдельный закрытый движок Pro существует для высокопроизводительных серверов.
  • Не исправляет фрагментацию сессии, когда весь разговор воспроизводится каждый раз — это проблема оркестровки, выходящая за рамки данного инструмента.
  • Доступность бинарников: Windows x64 в v0.2.1. Linux + macOS CI пайплайн в разработке.

Для кого это

Для пользователей локальных LLM, запускающих агентов или RAG с Ollama, vLLM, SGLang, llama.cpp или любым совместимым с OpenAI бэкендом, которые хотят уместить больше реальных токенов в ограниченные контекстные окна.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Unsloth Studio обеспечивает двукратное ускорение обучения с сокращением использования видеопамяти на 70% для локальной тонкой настройки ИИ.
Инструменты

Unsloth Studio обеспечивает двукратное ускорение обучения с сокращением использования видеопамяти на 70% для локальной тонкой настройки ИИ.

Unsloth Studio предоставляет инструменты для обучения и тонкой настройки языковых моделей на локальном оборудовании с ускорением обучения в 2 раза и снижением использования VRAM на 70%. Поддерживает экспорт моделей в формат GGUF для использования с Ollama и позволяет реализовать полные локальные рабочие процессы ИИ-кодирования на оборудовании с 24 ГБ, таком как RTX 4090.

OpenClawRadar
Навык OpenClaw связывает агентов с интерфейсом Knods.io для создания рабочих процессов.
Инструменты

Навык OpenClaw связывает агентов с интерфейсом Knods.io для создания рабочих процессов.

Разработчик создал навык OpenClaw, который позволяет агентам понимать и создавать рабочие процессы в интерфейсе Knods.io, давая пользователям возможность переключаться между конкретными агентами, например, брендовыми, вместо использования встроенного агента Knods.

OpenClawRadar
AgentHandover: Приложение для строки меню Mac, которое создает навыки агентов, наблюдая за вашим экраном.
Инструменты

AgentHandover: Приложение для строки меню Mac, которое создает навыки агентов, наблюдая за вашим экраном.

AgentHandover — это приложение с открытым исходным кодом для панели меню Mac, которое использует Gemma 4, работающую локально через Ollama, для наблюдения за вашим экраном и преобразования повторяющихся рабочих процессов в структурированные файлы навыков (Skill), которые может выполнять любой агент. Оно предлагает как режим фокусированной записи для конкретных задач, так и пассивное обнаружение, которое выявляет паттерны из фонового наблюдения.

OpenClawRadar
OpenYak: Открытый настольный ИИ-агент для локального управления файлами и автоматизации
Инструменты

OpenYak: Открытый настольный ИИ-агент для локального управления файлами и автоматизации

OpenYak — это открытый настольный ИИ-ассистент, который работает полностью на вашем компьютере, предлагая управление файлами, анализ данных и автоматизацию офисных задач с доступом к 100+ ИИ-моделям через OpenRouter и 20+ провайдерам BYOK.

OpenClawRadar