Ajuste Fino do Qwen 14B para Autocompletar no Discord

Um desenvolvedor compartilhou sua experiência sobre como ajustou o modelo Qwen 14B para funcionar como uma ferramenta de autocompletar usando suas mensagens do Discord. Esta configuração se assemelha bastante a ferramentas como o GitHub Copilot, onde sugestões são feitas enquanto você digita.

O desenvolvedor utilizou aproximadamente 250 conversas obtidas do Discord, através de uma ferramenta de scraping, como seu conjunto de dados. Cada conversa foi formatada como amostras de treinamento chat-ml, com foco particular em mensagens onde o usuário falou por último, sem blocos de código ou links. Esta escolha indica um foco no tom conversacional em vez de conteúdo técnico.

O modelo Qwen 14B foi ajustado usando a plataforma unsloth.ai e QLoRA em uma GPU do Kaggle, com todo o processo de treinamento durando aproximadamente 15 minutos devido ao pequeno tamanho do conjunto de dados. Eles então mesclaram o modelo ajustado em um formato .gguf para uso local via ollama.com.

A interface desta ferramenta de autocompletar é implementada como uma extensão do Chrome. Ela captura as últimas mensagens e a entrada em andamento do usuário para construir um prompt chat-ml com o contexto apropriado, que é então usado para gerar uma conclusão a partir do modelo fornecido pelo Ollama. Um caractere Unicode de largura zero é usado de forma inteligente para indicar onde a sugestão começa, enquanto pressionar shift+tab aceitará a sugestão.

A configuração atual está operacional no Discord, com possíveis expansões futuras para suportar outros sites. O desenvolvedor também sugere experimentar com diferentes tamanhos de modelo, já que o modelo atual de 14B quase maximiza a memória disponível. Eles propõem que modelos de 4B ou 8B podem ser alternativas viáveis, embora com possíveis limitações de dados.

O código-fonte e mais detalhes estão disponíveis no GitHub do desenvolvedor em github.com/b44ken/finetune.

📖 Leia a fonte completa: r/LocalLLaMA

Ajuste Fino do Qwen 14B para Autocompletar do Discord

👀 See Also

Servidor MCP Conecta Claude ao Room EQ Wizard para Análise de Acústica de Estúdio

Canopy: Painel de Terminal para Gerenciar Múltiplos Agentes de Código Claude

ClawRelay: Proxy LLM compatível com OpenAI nativo para macOS com failover automático

TranscriptionSuite v1.1.2 adiciona os modelos WhisperX, NeMo e VibeVoice.