Ухудшение качества контекста в ИИ-агентах: Уровень галлюцинаций растет с увеличением количества токенов

Результаты тестирования производительности контекстного окна
Разработчик протестировал ухудшение качества контекста при разных объёмах токенов в ИИ-агентах, выявив значительные проблемы с производительностью по мере увеличения размера контекста.
Ключевые выводы тестирования
В ходе тестирования были измерены несколько критически важных показателей:
- Уровень галлюцинаций в зависимости от размера контекста:
- 10 тыс. токенов: ~3%
- 50 тыс. токенов: ~11%
- 200 тыс. токенов: ~28%
- 1 млн токенов: неясно, но тренд показывает нарастающую деградацию
- Точность воспроизведения: Ни одна из протестированных моделей (включая GPT-4, Claude или локальные модели) не достигла 90% точности воспроизведения информации из первых 10 повторов, как только контекст превысил 50 тыс. токенов.
- Эффективность использования токенов: При 200 тыс. токенов процент контекста, действительно релевантного текущему запросу, в большинстве задач агента падает ниже 12%, что означает, что примерно 188 тыс. токенов добавляют шум, который модель должна обходить при рассуждении.
Анализ проблемы
Проблема, по-видимому, заключается не в забывании, а в недостатке внимания. Ранний контекст конкурирует с недавним, причём недавний обычно выигрывает из-за более высокой позиционной релевантности. Это приводит к тому, что ограничения, установленные в начале сессий (например, «используй PostgreSQL, без ORM»), постепенно размываются по мере накопления большего объёма контекста.
К 89-му повтору при 200 тыс. токенов внимание модели настолько распределено по всему контексту, что ранние ограничения фактически исчезают.
Текущие решения и их ограничения
Многие разработчики добавляют векторные базы данных для извлечения «релевантных» воспоминаний, что несколько помогает. Однако этот подход извлекает семантически похожий контент, а не тот, который нужен агенту для правильного рассуждения. Например, «используй PostgreSQL» не является семантически похожим на «напиши мне конечную точку для входа в систему», хотя это должно быть в контексте для правильного выполнения.
Разработчик ищет обратную связь о том, соответствуют ли эти выводы производственному опыту и какие подходы действительно сработали у других.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Обновление OpenClaw 2026.3.2 отключает инструменты агента по умолчанию.
OpenClaw 2026.3.2 отключает все разрешения для инструментов агентов по умолчанию, что не позволяет работать таким инструментам, как exec и web_fetch. Для исправления требуется добавить конфигурацию в файл openclaw.json.

Gemini 3.1 Flash Live: Новая аудиомодель Google с улучшенными показателями и водяными знаками
Google выпустила Gemini 3.1 Flash Live — аудиомодель, которая набрала 90,8% на тесте ComplexFuncBench Audio и 36,1% на Audio MultiChallenge от Scale AI. Она доступна через Gemini Live API в Google AI Studio и включает водяной знак SynthID.
Параметр Гольф: экспериментальное исследование машинного обучения с помощью ИИ от OpenAI
OpenAI провела «Parameter Golf» — соревнование с участием более 1000 человек и 2000+ заявок, проверяющее машинное обучение с помощью ИИ, агенты программирования, квантизацию и новаторские проекты моделей в строгих условиях.

Риски судебных разбирательств в структурах финансирования центров обработки данных на основе ИИ
Строительство центров обработки данных для ИИ потребует инвестиций в инфраструктуру на сумму 5,2 триллиона долларов к 2030 году. Компании используют сложные финансовые структуры, такие как СПВ и обеспеченные GPU-оборудованием объекты, которые создают девять категорий судебных рисков.