Qwen2-0.5B Affiné pour Automatisation Locale avec llama.cpp

Un développeur a affiné Qwen2-0.5B pour l'automatisation de tâches, créant un modèle qui s'exécute entièrement localement sur CPU sans nécessiter de GPU ni d'API cloud. Le projet, nommé ACE, est disponible sur GitHub.

Ce qu'il fait

Prend des tâches en langage naturel (par exemple, "copier les journaux en sauvegarde")
Détecte le type de tâche : atomique, répétitive ou de clarification
Génère des plans d'exécution composés de commandes CLI et de raccourcis clavier
S'exécute entièrement localement sur CPU (pas de GPU, pas d'API cloud)

Détails techniques

Modèle de base : Qwen2-0.5B
Entraînement : Affinage LoRA sur environ 1000 exemples de tâches personnalisées
Quantification : Format GGUF Q4_K_M (taille de fichier 300 Mo)
Inférence : llama.cpp
Temps d'inférence : 3-10 secondes sur processeurs i3/i5

Principaux défis pendant l'entraînement

Qualité des données : A dû régénérer le jeu de données 2-3 fois à cause d'exemples inutiles
Sur-apprentissage : A pris plusieurs itérations pour stabiliser la perte de validation
Gestion du token EOS : Le modèle ne s'arrêtait pas de générer jusqu'à ce que la configuration du tokenizer soit corrigée
Conversion GGUF : Nécessitait le dtype BF16 + la quantification imatrix pour obtenir des sorties stables

Limitations (v0.1)

Nécessite des chemins de fichiers complets (pas encore de recherche intelligente de fichiers)
Inférence CPU uniquement (plus lent sur matériel ancien)
Exécution basique (pas de compréhension visuelle)

Benchmarks de performance

i5 (2018+) avec SSD : 3-5 secondes
i3 (2015+) avec SSD : 5-10 secondes
Matériel ancien (Pentium + HDD) : 30-90 secondes

Le développeur sollicite des retours sur les performances sur différents matériels, les cas limites qui font échouer le modèle, et les demandes de fonctionnalités pour la v0.2.

📖 Read the full source: r/LocalLLaMA