Qwen3.5-2B Ajustado com RAG-Engram: Precisão de 50% a 93% em 8K

Abordagem de ajuste fino para melhor desempenho de RAG

Um desenvolvedor criou uma versão ajustada do Qwen3.5-2B que aborda o fenômeno 'perdido no meio' e alucinações em modelos de linguagem pequenos quando as janelas de contexto estão saturadas com aproximadamente 8K tokens de dados recuperados. A arquitetura personalizada, chamada RAG-Engram, melhorou as respostas corretas em 8K tokens de 50% para 93% em 14 consultas do mundo real.

Detalhes da arquitetura

O sistema RAG-Engram é um sistema de dois níveis construído em torno da arquitetura híbrida Gated DeltaNet do Qwen3.5-2B:

Nível 1 — Tabela Engram Estática: 135K embeddings de entidades pré-computadas (substantivos próprios indianos, esquemas governamentais, frases em hindi, termos financeiros) armazenados na RAM da CPU. Isso libera a atenção do modelo de ter que reconstruir entidades conhecidas.
Nível 2 — Navegação Dinâmica de Chunks: No momento da inferência, um extrator leve spaCy (~15MB) escaneia os chunks recuperados, constrói um mapa de ponteiros de onde as entidades-chave aparecem e gera uma matriz de viés de atenção. Isso é adicionado às pontuações Q·K^T antes do softmax nas camadas 3 e 15 (as camadas de atenção completa na arquitetura híbrida — as outras 18 camadas são Gated DeltaNet que não têm atenção softmax).

A abordagem diz aos cabeçotes de atenção onde olhar, em vez de fazer o modelo escanear cegamente 8.000 tokens na esperança de encontrar respostas.

Especificações de treinamento

Modelo base: Qwen3.5-2B-Base
Método: LoRA (r=16, alpha=16) via Unsloth
Dados: 2.168 exemplos destilados do DeepSeek V3 em MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K
Tempo de treinamento: 15 minutos no Modal (GPU única)
Perda Treino/Validação: 1.369 / 1.385 — sem overfitting

O ajuste fino supervisionado ensina o modelo a responder em um estilo conversacional específico (markdown, insights-chave em negrito, fundamentação de fonte), enquanto o viés Engram lida com a navegação da atenção em contextos longos.

Resultados da avaliação

A avaliação foi conduzida pelo Claude Opus 4.6 usando chunks de resultados de pesquisa do Google preenchidos até 8K tokens:

Qwen3.5-2B Vanilla: 50% de respostas corretas em 8K tokens, 14% de falhas/recusas
Drissy + RAG-Engram: 93% de respostas corretas em 8K tokens, 0% de falhas/recusas

A combinação eliminou completamente as falhas 'perdidas no meio'. O desenvolvedor relata que todo o projeto, da especificação ao HuggingFace, levou cerca de 2 semanas e custou menos que um café.