Alucinação em IA Aumenta 9x: Taxas de 3% em 10K Tokens a 28% em 200K

Resultados de Testes de Desempenho da Janela de Contexto

Um desenvolvedor testou a degradação da qualidade do contexto em diferentes contagens de tokens em agentes de IA, revelando problemas significativos de desempenho conforme o tamanho do contexto aumenta.

Principais Descobertas dos Testes

Os testes mediram várias métricas críticas:

Taxas de alucinação por tamanho de contexto:
- 10K tokens: ~3%
- 50K tokens: ~11%
- 200K tokens: ~28%
- 1M tokens: não está claro, mas a tendência mostra degradação crescente
Precisão de recuperação: Nenhum modelo testado (incluindo GPT-4, Claude ou modelos locais) alcançou 90% de recuperação em informações das primeiras 10 interações uma vez que o contexto excedeu 50K tokens.
Eficiência de tokens: Em 200K tokens, a porcentagem do contexto realmente relevante para a consulta atual cai abaixo de 12% na maioria das tarefas do agente, o que significa que aproximadamente 188K tokens adicionam ruído que o modelo precisa contornar no raciocínio.

Análise do Problema

O problema parece ser fome de atenção, em vez de esquecimento. O contexto inicial compete com o contexto recente, com o contexto recente geralmente vencendo devido à maior relevância posicional. Isso faz com que restrições definidas no início das sessões (como "use PostgreSQL, sem ORMs") se tornem progressivamente diluídas conforme mais contexto se acumula.

Na interação 89 com 200K tokens, a atenção do modelo está tão distribuída pelo contexto que as restrições iniciais efetivamente desaparecem.

Soluções Atuais e Limitações

Muitos desenvolvedores adicionam bancos de dados vetoriais para recuperar "memórias relevantes", o que ajuda um pouco. No entanto, essa abordagem recupera conteúdo semanticamente similar, em vez do que o agente precisa para um raciocínio correto. Por exemplo, "use PostgreSQL" não é semanticamente similar a "escreva um endpoint de login", mesmo que precise estar no contexto para execução adequada.

O desenvolvedor está buscando feedback sobre se essas descobertas correspondem às experiências em produção e quais abordagens realmente funcionaram para outras pessoas.

📖 Leia a fonte completa: r/LocalLLaMA