Réglage Fin Local de Llama 3.2-1B pour la Détection de Secrets Surpasse le Modèle de Wiz

Un développeur a documenté son ajustement fin local réussi de Llama 3.2-1B pour la détection de secrets dans le code, dépassant les métriques d'un modèle similaire de Wiz. Le projet a été mené entièrement avec des outils d'IA locaux, évitant les API propriétaires.
Résultats clés et approche
Le développeur visait à répliquer ou à surpasser les résultats de Wiz de 86 % de précision et 82 % de rappel. Après quelques week-ends de travail, il a atteint 88 % de précision et 84,4 % de rappel simultanément avec un modèle Llama 3.2-1B ajusté finement. Il a également évalué les modèles Qwen 3.5-2B et 4B, qui ont surpassé le modèle 1B au prix d'une utilisation de VRAM plus élevée et de temps d'inférence plus longs.
Ensemble de données et processus d'entraînement
Le travail s'est appuyé uniquement sur des données publiquement disponibles, qui étaient insuffisantes, donc une génération procédurale a été utilisée pour augmenter et améliorer l'ensemble de données. Tout l'étiquetage a été effectué localement en utilisant le modèle Qwen3-Coder-Next. Un objectif d'entraînement clé était que les modèles produisent du JSON structuré. Initialement, les modèles non entraînés (Llama & Qwen) ont obtenu 0 % de conformité au schéma, mais après l'entraînement, cela s'est amélioré à 98-100 %.
Défis et apprentissages
Le développeur a rencontré plusieurs problèmes pendant le processus :
- Inclusion d'une classe à haute entropie qui était préjudiciable à l'entraînement ; celle-ci a été identifiée et supprimée.
- Découverte que 4 500 des échantillons « négatifs » dans l'ensemble de données contenaient en réalité des mots de passe du monde réel, ce qui signifiait que le modèle était entraîné à ignorer les secrets. Corriger cela a amélioré le rappel sur les mots de passe.
Le développeur a publié un compte rendu technique complet avec des statistiques d'entraînement, des exemples et une analyse étape par étape du processus.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Évaluation des garde-fous multilingues avec any-guardrail dans l'IA humanitaire
L'outil any-guardrail de Mozilla évalue les garde-fous multilingues dans les LLM humanitaires, en se concentrant sur la spécificité des tâches et des domaines.

Claude Code dans le flux de travail de recherche : Résultats pratiques de la rédaction d'articles
Un chercheur a utilisé Claude Code pour des tâches auxiliaires lors de la rédaction d'un article, le trouvant efficace pour générer des figures prêtes à publier à partir d'instructions vagues, migrer un environnement de recherche entre des bases de code en moins d'une heure, et formater plus de 12 pages de preuves mathématiques en LaTeX, où il a détecté une condition limite incomplète qui avait été manquée. Il a eu des difficultés avec le débogage d'un problème de concurrence qui s'est avéré être un problème d'allocation CPU non évident dans le code ou les journaux.

Développeur crée une application de déclaration d'amour anonyme avec Claude Code
Un développeur a créé BlushDrop, une plateforme de propositions d'amour anonymes avec suivi en temps réel, en utilisant Claude Code pour gérer l'architecture, la sécurité et le déploiement, bien qu'il n'ait aucune expérience préalable avec Next.js ou Supabase Realtime.

Utiliser Claude Code pour créer un blog de voyage au Japon avec de l'art et des vidéos générés par IA
Un développeur a utilisé Claude Code pour créer un site web d'essai personnel sur le Japon, gérant l'ensemble du pipeline créatif incluant l'affinement de l'écriture, la transformation d'images avec Nano Banana Pro, l'animation vidéo avec Veo 3.1 et 3.0-fast, et le déploiement sur Railway.