O Qwen3.5-2B ajustado com a arquitetura RAG-Engram melhora a precisão das respostas fundamentadas de 50% para 93% em um contexto de 8K.

Abordagem de ajuste fino para melhor desempenho de RAG
Um desenvolvedor criou uma versão ajustada do Qwen3.5-2B que aborda o fenômeno 'perdido no meio' e alucinações em modelos de linguagem pequenos quando as janelas de contexto estão saturadas com aproximadamente 8K tokens de dados recuperados. A arquitetura personalizada, chamada RAG-Engram, melhorou as respostas corretas em 8K tokens de 50% para 93% em 14 consultas do mundo real.
Detalhes da arquitetura
O sistema RAG-Engram é um sistema de dois níveis construído em torno da arquitetura híbrida Gated DeltaNet do Qwen3.5-2B:
- Nível 1 — Tabela Engram Estática: 135K embeddings de entidades pré-computadas (substantivos próprios indianos, esquemas governamentais, frases em hindi, termos financeiros) armazenados na RAM da CPU. Isso libera a atenção do modelo de ter que reconstruir entidades conhecidas.
- Nível 2 — Navegação Dinâmica de Chunks: No momento da inferência, um extrator leve spaCy (~15MB) escaneia os chunks recuperados, constrói um mapa de ponteiros de onde as entidades-chave aparecem e gera uma matriz de viés de atenção. Isso é adicionado às pontuações Q·K^T antes do softmax nas camadas 3 e 15 (as camadas de atenção completa na arquitetura híbrida — as outras 18 camadas são Gated DeltaNet que não têm atenção softmax).
A abordagem diz aos cabeçotes de atenção onde olhar, em vez de fazer o modelo escanear cegamente 8.000 tokens na esperança de encontrar respostas.
Especificações de treinamento
- Modelo base: Qwen3.5-2B-Base
- Método: LoRA (r=16, alpha=16) via Unsloth
- Dados: 2.168 exemplos destilados do DeepSeek V3 em MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K
- Tempo de treinamento: 15 minutos no Modal (GPU única)
- Perda Treino/Validação: 1.369 / 1.385 — sem overfitting
O ajuste fino supervisionado ensina o modelo a responder em um estilo conversacional específico (markdown, insights-chave em negrito, fundamentação de fonte), enquanto o viés Engram lida com a navegação da atenção em contextos longos.
Resultados da avaliação
A avaliação foi conduzida pelo Claude Opus 4.6 usando chunks de resultados de pesquisa do Google preenchidos até 8K tokens:
- Qwen3.5-2B Vanilla: 50% de respostas corretas em 8K tokens, 14% de falhas/recusas
- Drissy + RAG-Engram: 93% de respostas corretas em 8K tokens, 0% de falhas/recusas
A combinação eliminou completamente as falhas 'perdidas no meio'. O desenvolvedor relata que todo o projeto, da especificação ao HuggingFace, levou cerca de 2 semanas e custou menos que um café.
Disponibilidade do modelo
O modelo ajustado está disponível como:
- Modelo: drissea-ai/drissy-qwen3.5-2b
- GGUF: drissea-ai/drissy-qwen3.5-2b-GGUF
📖 Read the full source: r/LocalLLaMA
👀 See Also

Dois Meses com o Spec-Kit do GitHub e Claude Code: O Que Funciona, O Que Não Funciona
Um desenvolvedor compartilha notas práticas sobre o uso do kit de desenvolvimento orientado por especificações do GitHub com o Claude Code, abordando o fluxo de trabalho de cinco fases, problemas de deriva, compensações de sobrecarga e dicas de configuração.

Files.md: App de anotações em Markdown de código aberto e foco local, com design amigável para LLM
Files.md é um aplicativo de markdown open-source, local-first para notas, tarefas e diários. 886 estrelas, construído em Go, funciona offline, sincroniza via iCloud/Dropbox/servidor auto-hospedado ou aplicativo beta hospedado files.md.

LogClaw: SRE de IA de Código Aberto para Criação Automática de Chamados a partir de Logs
LogClaw é uma plataforma de inteligência de logs de código aberto que roda no Kubernetes, ingere logs via OpenTelemetry, detecta anomalias usando pontuação composta baseada em sinais e cria automaticamente tickets com análise de causa raiz em cerca de 90 segundos.

Servidor de Busca MCP com Classificação Orientada por Feedback para Claude Desktop
Um servidor de busca MCP construído pela comunidade para o Claude Desktop executa os mecanismos de busca Exa e Tavily em paralelo sem exigir chaves de API. Após usar um resultado, os usuários relatam se funcionou por meio de uma ferramenta de resultado, que retroalimenta o sistema de classificação para priorizar URLs que ajudam os agentes a ter sucesso.