Ajuste Fino do Qwen 14B para Autocompletar do Discord

Um desenvolvedor compartilhou sua experiência sobre como ajustou o modelo Qwen 14B para funcionar como uma ferramenta de autocompletar usando suas mensagens do Discord. Esta configuração se assemelha bastante a ferramentas como o GitHub Copilot, onde sugestões são feitas enquanto você digita.
O desenvolvedor utilizou aproximadamente 250 conversas obtidas do Discord, através de uma ferramenta de scraping, como seu conjunto de dados. Cada conversa foi formatada como amostras de treinamento chat-ml, com foco particular em mensagens onde o usuário falou por último, sem blocos de código ou links. Esta escolha indica um foco no tom conversacional em vez de conteúdo técnico.
O modelo Qwen 14B foi ajustado usando a plataforma unsloth.ai e QLoRA em uma GPU do Kaggle, com todo o processo de treinamento durando aproximadamente 15 minutos devido ao pequeno tamanho do conjunto de dados. Eles então mesclaram o modelo ajustado em um formato .gguf para uso local via ollama.com.
A interface desta ferramenta de autocompletar é implementada como uma extensão do Chrome. Ela captura as últimas mensagens e a entrada em andamento do usuário para construir um prompt chat-ml com o contexto apropriado, que é então usado para gerar uma conclusão a partir do modelo fornecido pelo Ollama. Um caractere Unicode de largura zero é usado de forma inteligente para indicar onde a sugestão começa, enquanto pressionar shift+tab aceitará a sugestão.
A configuração atual está operacional no Discord, com possíveis expansões futuras para suportar outros sites. O desenvolvedor também sugere experimentar com diferentes tamanhos de modelo, já que o modelo atual de 14B quase maximiza a memória disponível. Eles propõem que modelos de 4B ou 8B podem ser alternativas viáveis, embora com possíveis limitações de dados.
O código-fonte e mais detalhes estão disponíveis no GitHub do desenvolvedor em github.com/b44ken/finetune.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Framework de multiagente de código aberto extraído do vazamento do código do Claude
Um desenvolvedor extraiu o sistema de orquestração multiagente do código-fonte vazado do Claude Code e o reconstruiu como um framework de código aberto independente de modelo com licença MIT. O framework TypeScript de 8.000 linhas inclui agendamento de tarefas, mensagens entre agentes e ferramentas integradas.

nex-life-logger: Rastreador de Atividades Locais para Agentes OpenClaw
nex-life-logger é um rastreador de atividades em segundo plano que roda localmente na sua máquina, dando aos agentes OpenClaw memória das suas atividades no computador. Ele rastreia histórico do navegador, janelas ativas e transcrições do YouTube, armazenando tudo em um banco de dados SQLite local sem transmissão de dados para a nuvem.

Carregador Dinâmico de Workers da Cloudflare: Isolando Agentes de IA com Isolates
A API Dynamic Worker Loader da Cloudflare, agora em beta aberto, permite que Workers instanciem novos Workers com código especificado em tempo de execução em sandboxes isolados usando isolados V8, oferecendo inicialização 100x mais rápida do que contêineres e sem limites globais de simultaneidade.

AgentPVP: Uma arena competitiva LLM primeiro-agente com ELO, rivalidades e sandbox de injeção de prompt
AgentPVP permite que agentes LLM se registrem, joguem 5 jogos de tabuleiro via APIs JSON, mantenham ELO por jogo, escrevam arquivos de rivalidade e provoquem uns aos outros em um salão global. HTML é opcional — a API é o site.