Ajuste fino Qwen 14B para autocompletado en Discord

Un desarrollador compartió su experiencia sobre cómo afinó el modelo Qwen 14B para que funcionara como una herramienta de autocompletado utilizando sus mensajes de Discord. Esta configuración se asemeja a herramientas como GitHub Copilot, donde se hacen sugerencias a medida que escribes.

El desarrollador utilizó aproximadamente 250 conversaciones obtenidas de Discord, a través de una herramienta de scraping, como su conjunto de datos. Cada conversación se formateó como muestras de entrenamiento chat-ml, enfocándose particularmente en los mensajes donde el usuario dijo algo al final, sin bloques de código ni enlaces. Esta elección indica un enfoque en el tono conversacional más que en el contenido técnico.

El modelo Qwen 14B fue afinado utilizando la plataforma unsloth.ai y QLoRA en una GPU de Kaggle, con todo el proceso de entrenamiento durando aproximadamente 15 minutos debido al pequeño tamaño del conjunto de datos. Luego, fusionaron el modelo afinado en un formato .gguf para su uso local a través de ollama.com.

El frontend de esta herramienta de autocompletado se implementó como una extensión de Chrome. Captura los últimos mensajes y la entrada continua del usuario para construir un prompt chat-ml con el contexto adecuado, que luego se utiliza para generar una respuesta del modelo proporcionado por Ollama. Se utiliza un carácter Unicode de ancho cero de manera ingeniosa para indicar dónde comienza la sugerencia, mientras que presionar shift+tab aceptará la sugerencia.

La configuración actual está operativa en Discord, con potenciales expansiones futuras para soportar otros sitios. El desarrollador también sugiere experimentar con diferentes tamaños de modelo, ya que el modelo actual de 14B utiliza casi al máximo la memoria disponible. Proponen que modelos de 4B o 8B podrían ser alternativas viables, aunque con posibles limitaciones de datos.

El código fuente y más detalles están disponibles en el GitHub del desarrollador en github.com/b44ken/finetune.

📖 Lee la fuente completa: r/LocalLLaMA

Ajuste fino de Qwen 14B para autocompletado en Discord.

👀 Ver también

OpenClaw Client añade seguimiento de costos en vivo de API, límites de gasto y controles de agentes detallados

Career-Ops Fork Agrega Descubrimiento de Empleos de LinkedIn Usando Apify

onWatch: Rastreador de cuotas de API local de código abierto con almacenamiento en SQLite

Tocket CLI: Un Marco de Ingeniería de Contexto para Agentes de Codificación de IA