Affinage de Qwen 14B pour l'Autocomplétion Discord

Un développeur a partagé son expérience sur la façon dont il a affiné le modèle Qwen 14B pour qu'il fonctionne comme un outil de saisie automatique en utilisant ses messages Discord. Cette configuration ressemble étroitement à des outils comme GitHub Copilot, où des suggestions sont faites au fur et à mesure que vous tapez.
Le développeur a utilisé environ 250 conversations provenant de Discord, obtenues via un outil de scraping, comme jeu de données. Chaque conversation a été formatée en échantillons d'entraînement chat-ml, en se concentrant particulièrement sur les messages où l'utilisateur a dit quelque chose en dernier, sans blocs de code ni liens. Ce choix indique une focalisation sur le ton conversationnel plutôt que sur le contenu technique.
Le modèle Qwen 14B a été affiné en utilisant la plateforme unsloth.ai et QLoRA sur un GPU Kaggle, l'ensemble du processus d'entraînement ayant duré environ 15 minutes en raison de la petite taille du jeu de données. Ils ont ensuite fusionné le modèle affiné dans un format .gguf pour une utilisation locale via ollama.com.
L'interface de cet outil de saisie automatique est implémentée comme une extension Chrome. Elle capture les derniers messages et la saisie en cours de l'utilisateur pour construire une invite chat-ml avec le contexte approprié, qui est ensuite utilisée pour générer une complétion à partir du modèle fourni par Ollama. Un caractère Unicode de largeur nulle est astucieusement utilisé pour indiquer où commence la suggestion, tandis qu'appuyer sur shift+tab acceptera la suggestion.
La configuration actuelle est opérationnelle sur Discord, avec des extensions potentielles à l'avenir pour prendre en charge d'autres sites. Le développeur suggère également d'expérimenter avec différentes tailles de modèles, car le modèle actuel de 14B utilise presque au maximum la mémoire disponible. Ils proposent que les modèles de 4B ou 8B pourraient être des alternatives viables, bien qu'avec des limitations potentielles de données.
Le code source et d'autres détails sont disponibles sur le GitHub du développeur à github.com/b44ken/finetune.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

OpenClaw PARA organise automatiquement les fichiers de l'assistant IA.
Un développeur a créé une compétence OpenClaw qui applique la méthode PARA (Projets, Domaines, Ressources, Archives) pour l'organisation des fichiers, triant automatiquement les fichiers dans quatre dossiers structurés au lieu de tout déverser dans le répertoire racine.

Utilyze : Moniteur GPU Open Source qui mesure le débit de calcul réel, pas seulement l'activité du noyau
Utilyze échantillonne les compteurs de performance matériels pour rapporter le débit de calcul et de mémoire par rapport aux limites théoriques, révélant que des tableaux de bord affichant une utilisation à 100 % peuvent n'atteindre que 1 à 10 % de débit réel.

La compétence Claude Code génère des captures d'écran de l'App Store en utilisant l'IA Gemini.
Une nouvelle compétence Claude Code appelée /aso-cosmicmeta-ss crée des captures d'écran pour l'App Store et Google Play via un flux de travail en 6 phases qui analyse les bases de code et utilise Gemini AI pour l'amélioration. La compétence inclut une étape de validation pour détecter les problèmes de mise en page avant d'utiliser les crédits API.

Manifest Ajoute la Prise en Charge des Plans de Jetons MiniMax avec le Modèle M2.7
Manifest, une couche de routage open source pour OpenClaw, prend désormais en charge les forfaits de jetons MiniMax à partir de 10 $/mois. Le nouveau modèle MiniMax M2.7 est spécifiquement entraîné pour les workflows OpenClaw et obtient des scores de 62,7 sur MM-ClawBench et 56,2 sur SWE-Bench Pro.