Les plugins LM Studio ajoutent l'analyse d'images web pour les LLM dotés de capacités visuelles.

✍️ OpenClawRadar📅 Publié: March 31, 2026🔗 Source
Les plugins LM Studio ajoutent l'analyse d'images web pour les LLM dotés de capacités visuelles.
Ad

Un développeur a créé des plugins pour LM Studio qui permettent aux LLM dotés de capacités visuelles de récupérer des images depuis le web et de les analyser directement dans l'application. Les plugins fonctionnent sans nécessiter de MCP/API ou d'inscription, en utilisant des scripts simples qui peuvent être installés en un clic depuis le site web de LM Studio.

Fonctionnalités principales

Le plugin principal, "analyze-images", permet aux LLM de :

  • Récupérer des images depuis le web pour analyse
  • Enchaîner automatiquement les outils en fonction de la tâche
  • Convertir les images récupérées en fichiers miniatures plus petits pour l'intégration dans le chat afin d'éviter l'encombrement
  • Utiliser des images en pleine résolution pour l'analyse lorsque c'est possible
  • Intégrer des images dans les réponses ou utiliser des galeries sous forme de tableaux markdown lorsque les utilisateurs demandent plusieurs images

Le développeur a également mis à jour les plugins existants :

  • Le plugin Duck-Duck-Go fonctionne désormais avec les images
  • Le plugin Visiter le site web fonctionne désormais avec les images
Ad

Prérequis et configuration

Pour utiliser ces plugins, vous avez besoin de :

  • Un modèle doté de capacités visuelles (Qwen 3.5 9b ou 27b sont recommandés)
  • LM Studio avec prise en charge des plugins

Le développeur a partagé des paramètres spécifiques pour Qwen 3.5 qui ont bien fonctionné :

Température : 1
Échantillonnage Top K : 20
Pénalité de répétition : 1
Pénalité de présence : 1.9
Échantillonnage Top P : 0.95
Échantillonnage Min P : 0

Il a noté que le paramètre Pénalité de présence à 1.9 a aidé à résoudre les problèmes de répétition et à éviter les boucles.

L'invite système utilisée était : "Vous êtes un assistant compétent, réfléchi et précis. Priorisez toujours la véracité, la nuance, la perspicacité et l'efficacité, en adaptant vos réponses spécifiquement aux besoins et préférences de l'utilisateur. Recherchez avant de répondre aux questions : utilisez à la fois le raisonnement et les appels d'outils pour synthétiser une conclusion appropriée."

Liens des plugins

  • Plugin Analyser les images : https://lmstudio.ai/vadimfedenko/analyze-images
  • Duck-Duck-Go retravaillé : https://lmstudio.ai/vadimfedenko/duck-duck-go-reworked
  • Visiter le site web retravaillé : https://lmstudio.ai/vadimfedenko/visit-website-reworked

Le développeur a également partagé un modèle d'invite Jinja sur Pastebin qui a aidé à corriger les erreurs d'appel d'outils.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Outil CLI Relay sauvegarde le contexte de session Claude lors des limitations de débit
Tools

Outil CLI Relay sauvegarde le contexte de session Claude lors des limitations de débit

Relay est un outil CLI en Rust qui lit les transcriptions de session .jsonl de Claude sur le disque et crée des instantanés complets de votre session, incluant la conversation, les appels d'outils, les tâches à faire, l'état git et les erreurs. Il génère des invites de contexte pour reprendre les sessions après la réinitialisation des limites de débit.

OpenClawRadar
Automatiser la revue des PR GitHub avec les agents Claude Code
Tools

Automatiser la revue des PR GitHub avec les agents Claude Code

Un développeur a créé un agent qui traite les mentions GitHub, lance des travailleurs Claude Code pour examiner ou corriger les PR, et ne remonte aux humains que les cas ambigus.

OpenClawRadar
🦀
Tools

GLiGuard : Modèle de modération de sécurité open source de 300M paramètres revendiquant un gain de vitesse 16x par rapport aux garde-fous LLM

Fastino Labs publie GLiGuard, un modèle basé sur encodeur de 300 millions de paramètres qui effectue plusieurs tâches de sécurité en un seul passage, égalant ou dépassant des modèles 23 à 90 fois plus grands tout en étant jusqu'à 16 fois plus rapide.

OpenClawRadar
Le benchmark révèle que les outils d'automatisation de navigation par IA varient jusqu'à 2,6 fois en coût de tokens, malgré une précision identique.
Tools

Le benchmark révèle que les outils d'automatisation de navigation par IA varient jusqu'à 2,6 fois en coût de tokens, malgré une précision identique.

Un benchmark de 4 outils d'automatisation de navigateur en CLI utilisant Claude Sonnet 4.6 sur 6 tâches réelles a révélé que tous ont atteint 100% de précision, mais openbrowser-ai a utilisé 36 010 tokens tandis que les autres ont utilisé 77 123 à 94 130 tokens. Le nombre d'appels d'outils était le prédicteur le plus fort du coût en tokens.

OpenClawRadar