Двухмодельная архитектура сокращает потребление токенов вдвое для длинных диалогов.

✍️ OpenClawRadar📅 Опубликовано: 9 марта 2026 г.🔗 Source
Двухмодельная архитектура сокращает потребление токенов вдвое для длинных диалогов.
Ad

Система сжатия контекста для ИИ-агентов

Разработчик на r/ClaudeAI поделился решением проблемы потери контекста ИИ-агентами после сжатия диалога. Система использует двухмодельную архитектуру, в которой дешёвая маленькая модель (называемая "подсознанием") непрерывно сжимает историю диалога в фоновом режиме.

Детали архитектуры

Система состоит из четырёх слоёв:

  • Повествовательное резюме (~1 тыс. токенов)
  • Сжатые фактоиды
  • Семантически извлечённые дословные цитаты
  • Сырые недавние реплики

Основная модель ("сознание") получает курируемый контекст примерно в 35 тысяч токенов с той же плотностью информации, которая обычно требовала бы 120 тысяч токенов сырой истории. Основная модель читает одну связную временную линию и не знает о существовании системы памяти.

Ad

Результаты производительности

Разработчик смоделировал 260 реплик в различных типах диалогов. Для длительной проектной работы (начинающейся с интенсивного исследования и постепенно переходящей к быстрым обменам по мере того, как модель осваивает предметную область) система сокращает потребление токенов примерно вдвое.

Инструменты разработки

Система была построена с использованием Claude Code для симуляции и Claude.ai на этапе консультаций и исследований. Разработчик ищет других, кто пробовал направлять меньшую модель для управления контекстом большей модели или находил другие обходные пути для проблемы сжатия.

📖 Read the full source: r/ClaudeAI

Ad

👀 Смотрите также

Самодельный бот GitHub запускает Claude Code с 40+ вебхуками и инструментами MCP
Инструменты

Самодельный бот GitHub запускает Claude Code с 40+ вебхуками и инструментами MCP

Самостоятельно размещенный GitHub-бот использует Claude Agent SDK с полным набором функций Claude Code, поддерживая более 40 триггеров вебхуков, 4 встроенных MCP-сервера и пользовательские YAML-рабочие процессы для рецензирования PR, автоисправления CI и сортировки задач.

OpenClawRadar
Клодчек: Веб-интерфейс для Claude Code с агентами, отслеживанием расходов и системой плагинов
Инструменты

Клодчек: Веб-интерфейс для Claude Code с агентами, отслеживанием расходов и системой плагинов

Claudeck — это браузерный интерфейс, обёртывающий Claude Code SDK, с возможностями автономной оркестрации агентов, отслеживания затрат, изоляции git worktree, постоянной памяти и системой плагинов. Установка: npx claudeck@latest.

OpenClawRadar
Codiff v0.1.0: Локальное средство просмотра различий для проверки кода, сгенерированного LLM
Инструменты

Codiff v0.1.0: Локальное средство просмотра различий для проверки кода, сгенерированного LLM

Codiff v0.1.0 — это быстрая минималистичная настольная программа для просмотра локальных Git-диффов с режимом обхода LLM и встроенными комментариями, которые можно скопировать в Markdown.

OpenClawRadar
Гем Rails-AI-Context предоставляет коду Claude полную модель приложения Rails через MCP.
Инструменты

Гем Rails-AI-Context предоставляет коду Claude полную модель приложения Rails через MCP.

Гем rails-ai-context автоматически интроспектирует приложения на Rails и предоставляет 39 инструментов через MCP, позволяя Claude Code запрашивать конкретные детали приложения, такие как схема с зашифрованными столбцами, ассоциации моделей, маршруты, подключения Stimulus и сопоставления Turbo, вместо чтения всех файлов целиком.

OpenClawRadar