O Qwen3.5-2B ajustado com a arquitetura RAG-Engram melhora a precisão das respostas fundamentadas de 50% para 93% em um contexto de 8K.

✍️ OpenClawRadar📅 Publicado: March 27, 2026🔗 Source
O Qwen3.5-2B ajustado com a arquitetura RAG-Engram melhora a precisão das respostas fundamentadas de 50% para 93% em um contexto de 8K.
Ad

Abordagem de ajuste fino para melhor desempenho de RAG

Um desenvolvedor criou uma versão ajustada do Qwen3.5-2B que aborda o fenômeno 'perdido no meio' e alucinações em modelos de linguagem pequenos quando as janelas de contexto estão saturadas com aproximadamente 8K tokens de dados recuperados. A arquitetura personalizada, chamada RAG-Engram, melhorou as respostas corretas em 8K tokens de 50% para 93% em 14 consultas do mundo real.

Detalhes da arquitetura

O sistema RAG-Engram é um sistema de dois níveis construído em torno da arquitetura híbrida Gated DeltaNet do Qwen3.5-2B:

  • Nível 1 — Tabela Engram Estática: 135K embeddings de entidades pré-computadas (substantivos próprios indianos, esquemas governamentais, frases em hindi, termos financeiros) armazenados na RAM da CPU. Isso libera a atenção do modelo de ter que reconstruir entidades conhecidas.
  • Nível 2 — Navegação Dinâmica de Chunks: No momento da inferência, um extrator leve spaCy (~15MB) escaneia os chunks recuperados, constrói um mapa de ponteiros de onde as entidades-chave aparecem e gera uma matriz de viés de atenção. Isso é adicionado às pontuações Q·K^T antes do softmax nas camadas 3 e 15 (as camadas de atenção completa na arquitetura híbrida — as outras 18 camadas são Gated DeltaNet que não têm atenção softmax).

A abordagem diz aos cabeçotes de atenção onde olhar, em vez de fazer o modelo escanear cegamente 8.000 tokens na esperança de encontrar respostas.

Ad

Especificações de treinamento

  • Modelo base: Qwen3.5-2B-Base
  • Método: LoRA (r=16, alpha=16) via Unsloth
  • Dados: 2.168 exemplos destilados do DeepSeek V3 em MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K
  • Tempo de treinamento: 15 minutos no Modal (GPU única)
  • Perda Treino/Validação: 1.369 / 1.385 — sem overfitting

O ajuste fino supervisionado ensina o modelo a responder em um estilo conversacional específico (markdown, insights-chave em negrito, fundamentação de fonte), enquanto o viés Engram lida com a navegação da atenção em contextos longos.

Resultados da avaliação

A avaliação foi conduzida pelo Claude Opus 4.6 usando chunks de resultados de pesquisa do Google preenchidos até 8K tokens:

  • Qwen3.5-2B Vanilla: 50% de respostas corretas em 8K tokens, 14% de falhas/recusas
  • Drissy + RAG-Engram: 93% de respostas corretas em 8K tokens, 0% de falhas/recusas

A combinação eliminou completamente as falhas 'perdidas no meio'. O desenvolvedor relata que todo o projeto, da especificação ao HuggingFace, levou cerca de 2 semanas e custou menos que um café.

Disponibilidade do modelo

O modelo ajustado está disponível como:

  • Modelo: drissea-ai/drissy-qwen3.5-2b
  • GGUF: drissea-ai/drissy-qwen3.5-2b-GGUF

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Dois Meses com o Spec-Kit do GitHub e Claude Code: O Que Funciona, O Que Não Funciona
Tools

Dois Meses com o Spec-Kit do GitHub e Claude Code: O Que Funciona, O Que Não Funciona

Um desenvolvedor compartilha notas práticas sobre o uso do kit de desenvolvimento orientado por especificações do GitHub com o Claude Code, abordando o fluxo de trabalho de cinco fases, problemas de deriva, compensações de sobrecarga e dicas de configuração.

OpenClawRadar
Files.md: App de anotações em Markdown de código aberto e foco local, com design amigável para LLM
Tools

Files.md: App de anotações em Markdown de código aberto e foco local, com design amigável para LLM

Files.md é um aplicativo de markdown open-source, local-first para notas, tarefas e diários. 886 estrelas, construído em Go, funciona offline, sincroniza via iCloud/Dropbox/servidor auto-hospedado ou aplicativo beta hospedado files.md.

OpenClawRadar
LogClaw: SRE de IA de Código Aberto para Criação Automática de Chamados a partir de Logs
Tools

LogClaw: SRE de IA de Código Aberto para Criação Automática de Chamados a partir de Logs

LogClaw é uma plataforma de inteligência de logs de código aberto que roda no Kubernetes, ingere logs via OpenTelemetry, detecta anomalias usando pontuação composta baseada em sinais e cria automaticamente tickets com análise de causa raiz em cerca de 90 segundos.

OpenClawRadar
Servidor de Busca MCP com Classificação Orientada por Feedback para Claude Desktop
Tools

Servidor de Busca MCP com Classificação Orientada por Feedback para Claude Desktop

Um servidor de busca MCP construído pela comunidade para o Claude Desktop executa os mecanismos de busca Exa e Tavily em paralelo sem exigir chaves de API. Após usar um resultado, os usuários relatam se funcionou por meio de uma ferramenta de resultado, que retroalimenta o sistema de classificação para priorizar URLs que ajudam os agentes a ter sucesso.

OpenClawRadar