ИИ-агенты: галлюцинации растут до 28% при 200k токенов

Результаты тестирования производительности контекстного окна

Разработчик протестировал ухудшение качества контекста при разных объёмах токенов в ИИ-агентах, выявив значительные проблемы с производительностью по мере увеличения размера контекста.

Ключевые выводы тестирования

В ходе тестирования были измерены несколько критически важных показателей:

Уровень галлюцинаций в зависимости от размера контекста:
- 10 тыс. токенов: ~3%
- 50 тыс. токенов: ~11%
- 200 тыс. токенов: ~28%
- 1 млн токенов: неясно, но тренд показывает нарастающую деградацию
Точность воспроизведения: Ни одна из протестированных моделей (включая GPT-4, Claude или локальные модели) не достигла 90% точности воспроизведения информации из первых 10 повторов, как только контекст превысил 50 тыс. токенов.
Эффективность использования токенов: При 200 тыс. токенов процент контекста, действительно релевантного текущему запросу, в большинстве задач агента падает ниже 12%, что означает, что примерно 188 тыс. токенов добавляют шум, который модель должна обходить при рассуждении.

Анализ проблемы

Проблема, по-видимому, заключается не в забывании, а в недостатке внимания. Ранний контекст конкурирует с недавним, причём недавний обычно выигрывает из-за более высокой позиционной релевантности. Это приводит к тому, что ограничения, установленные в начале сессий (например, «используй PostgreSQL, без ORM»), постепенно размываются по мере накопления большего объёма контекста.

К 89-му повтору при 200 тыс. токенов внимание модели настолько распределено по всему контексту, что ранние ограничения фактически исчезают.

Текущие решения и их ограничения

Многие разработчики добавляют векторные базы данных для извлечения «релевантных» воспоминаний, что несколько помогает. Однако этот подход извлекает семантически похожий контент, а не тот, который нужен агенту для правильного рассуждения. Например, «используй PostgreSQL» не является семантически похожим на «напиши мне конечную точку для входа в систему», хотя это должно быть в контексте для правильного выполнения.

Разработчик ищет обратную связь о том, соответствуют ли эти выводы производственному опыту и какие подходы действительно сработали у других.

📖 Read the full source: r/LocalLLaMA

Ухудшение качества контекста в ИИ-агентах: Уровень галлюцинаций растет с увеличением количества токенов

Результаты тестирования производительности контекстного окна

Ключевые выводы тестирования

Анализ проблемы

Текущие решения и их ограничения

👀 Смотрите также

Первый шаг к ИИ общего назначения: преодоление разрыва с ClawDBot

Claude Cowork теперь доступен на Windows с доступом к локальным файлам и планированием задач

Анам Кара-3: Достижения в области интерактивных ИИ-аватаров

Claude Code v2.1.139 добавляет Agent View, команду /goal и крупные улучшения MCP