Ухудшение качества контекста в ИИ-агентах: Уровень галлюцинаций растет с увеличением количества токенов

✍️ OpenClawRadar📅 Опубликовано: 28 марта 2026 г.🔗 Source
Ухудшение качества контекста в ИИ-агентах: Уровень галлюцинаций растет с увеличением количества токенов
Ad

Результаты тестирования производительности контекстного окна

Разработчик протестировал ухудшение качества контекста при разных объёмах токенов в ИИ-агентах, выявив значительные проблемы с производительностью по мере увеличения размера контекста.

Ключевые выводы тестирования

В ходе тестирования были измерены несколько критически важных показателей:

  • Уровень галлюцинаций в зависимости от размера контекста:
    • 10 тыс. токенов: ~3%
    • 50 тыс. токенов: ~11%
    • 200 тыс. токенов: ~28%
    • 1 млн токенов: неясно, но тренд показывает нарастающую деградацию
  • Точность воспроизведения: Ни одна из протестированных моделей (включая GPT-4, Claude или локальные модели) не достигла 90% точности воспроизведения информации из первых 10 повторов, как только контекст превысил 50 тыс. токенов.
  • Эффективность использования токенов: При 200 тыс. токенов процент контекста, действительно релевантного текущему запросу, в большинстве задач агента падает ниже 12%, что означает, что примерно 188 тыс. токенов добавляют шум, который модель должна обходить при рассуждении.
Ad

Анализ проблемы

Проблема, по-видимому, заключается не в забывании, а в недостатке внимания. Ранний контекст конкурирует с недавним, причём недавний обычно выигрывает из-за более высокой позиционной релевантности. Это приводит к тому, что ограничения, установленные в начале сессий (например, «используй PostgreSQL, без ORM»), постепенно размываются по мере накопления большего объёма контекста.

К 89-му повтору при 200 тыс. токенов внимание модели настолько распределено по всему контексту, что ранние ограничения фактически исчезают.

Текущие решения и их ограничения

Многие разработчики добавляют векторные базы данных для извлечения «релевантных» воспоминаний, что несколько помогает. Однако этот подход извлекает семантически похожий контент, а не тот, который нужен агенту для правильного рассуждения. Например, «используй PostgreSQL» не является семантически похожим на «напиши мне конечную точку для входа в систему», хотя это должно быть в контексте для правильного выполнения.

Разработчик ищет обратную связь о том, соответствуют ли эти выводы производственному опыту и какие подходы действительно сработали у других.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Обновление OpenClaw 2026.3.2 отключает инструменты агента по умолчанию.
Новости

Обновление OpenClaw 2026.3.2 отключает инструменты агента по умолчанию.

OpenClaw 2026.3.2 отключает все разрешения для инструментов агентов по умолчанию, что не позволяет работать таким инструментам, как exec и web_fetch. Для исправления требуется добавить конфигурацию в файл openclaw.json.

OpenClawRadar
Gemini 3.1 Flash Live: Новая аудиомодель Google с улучшенными показателями и водяными знаками
Новости

Gemini 3.1 Flash Live: Новая аудиомодель Google с улучшенными показателями и водяными знаками

Google выпустила Gemini 3.1 Flash Live — аудиомодель, которая набрала 90,8% на тесте ComplexFuncBench Audio и 36,1% на Audio MultiChallenge от Scale AI. Она доступна через Gemini Live API в Google AI Studio и включает водяной знак SynthID.

OpenClawRadar
🦀
Новости

Параметр Гольф: экспериментальное исследование машинного обучения с помощью ИИ от OpenAI

OpenAI провела «Parameter Golf» — соревнование с участием более 1000 человек и 2000+ заявок, проверяющее машинное обучение с помощью ИИ, агенты программирования, квантизацию и новаторские проекты моделей в строгих условиях.

OpenClawRadar
Риски судебных разбирательств в структурах финансирования центров обработки данных на основе ИИ
Новости

Риски судебных разбирательств в структурах финансирования центров обработки данных на основе ИИ

Строительство центров обработки данных для ИИ потребует инвестиций в инфраструктуру на сумму 5,2 триллиона долларов к 2030 году. Компании используют сложные финансовые структуры, такие как СПВ и обеспеченные GPU-оборудованием объекты, которые создают девять категорий судебных рисков.

OpenClawRadar