LM Studio-Erweiterungen ermöglichen Web-Bildanalyse für vision-fähige LLMs.

Ein Entwickler hat Plugins für LM Studio erstellt, die visionfähigen LLMs ermöglichen, Bilder aus dem Web abzurufen und direkt innerhalb der Anwendung zu analysieren. Die Plugins funktionieren ohne MCP/APIs oder Registrierung, indem sie einfache Skripte verwenden, die mit einem Klick von der LM Studio-Website installiert werden können.
Hauptfunktionen
Das Hauptplugin "analyze-images" ermöglicht LLMs:
- Bilder aus dem Web zur Analyse abzurufen
- Tools automatisch basierend auf der Aufgabe zu verketten
- Abgerufene Bilder in kleinere Vorschaubilder für die Chat-Einbettung zu konvertieren, um Unordnung zu vermeiden
- Nach Möglichkeit hochauflösende Bilder für die Analyse zu verwenden
- Bilder in Antworten einzubetten oder Markdown-Tabellengalerien zu verwenden, wenn Benutzer mehrere Bilder anfordern
Der Entwickler hat auch bestehende Plugins aktualisiert:
- Das Duck-Duck-Go-Plugin funktioniert jetzt mit Bildern
- Das Website-Besuch-Plugin funktioniert jetzt mit Bildern
Anforderungen und Einrichtung
Um diese Plugins zu verwenden, benötigen Sie:
- Ein visionfähiges Modell (Qwen 3.5 9b oder 27b werden empfohlen)
- LM Studio mit Plugin-Unterstützung
Der Entwickler teilte spezifische Qwen 3.5-Einstellungen, die gut funktionierten:
Temperatur: 1 Top-K-Sampling: 20 Wiederholungsstrafe: 1 Präsenzstrafe: 1.9 Top-P-Sampling: 0.95 Min-P-Sampling: 0
Er bemerkte, dass die Präsenzstrafe-Einstellung bei 1.9 half, Wiederholungsprobleme zu beheben und Schleifen zu verhindern.
Der verwendete System-Prompt war: "Sie sind ein fähiger, nachdenklicher und präziser Assistent. Priorisieren Sie stets, wahrheitsgemäß, nuanciert, aufschlussreich und effizient zu sein, und passen Sie Ihre Antworten speziell auf die Bedürfnisse und Vorlieben des Benutzers an. Recherchieren Sie, bevor Sie Fragen beantworten: Verwenden Sie sowohl logisches Denken als auch Tool-Aufrufe, um eine angemessene Schlussfolgerung zu synthetisieren."
Plugin-Links
- Analyze Images plugin: https://lmstudio.ai/vadimfedenko/analyze-images
- Duck-Duck-Go reworked: https://lmstudio.ai/vadimfedenko/duck-duck-go-reworked
- Visit Website reworked: https://lmstudio.ai/vadimfedenko/visit-website-reworked
Der Entwickler teilte auch eine Jinja Prompt Template auf Pastebin, die half, Tool-Aufruffehler zu beheben.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

alogin: Ein auf Go basierendes Sicherheitsgateway für KI-Agenten mit Human-in-the-Loop
alogin ist ein Open-Source-Sicherheitsgateway auf Go-Basis, das eine sichere Verbindung zwischen KI-Agenten und Infrastruktur bereitstellt, mit integrierter MCP-Server-Unterstützung für Claude Desktop, Human-in-the-Loop-Sicherheitsbarrieren und verschlüsselter Anmeldedatenspeicherung.

Die Nutzung von Claude Code für Bot-Beratung: Ein tieferer Einblick
Die Integration von Claude Code in die Bot-Entwicklung erkunden, um die Funktionalität durch KI-Beratung zu verbessern, wie ein Enthusiast auf r/clawdbot berichtet.

Slides-grab: Visueller Editor zum Korrigieren von HTML-Folien, die von Claude Code generiert wurden
Slides-grab ist ein Tool, mit dem Sie Elemente auf HTML/CSS-Folien, die von Claude Code generiert wurden, ziehen können. Anschließend sendet es den XPath und einen hervorgehobenen Screenshot an den KI-Agenten, um präzise Bearbeitungen vorzunehmen. Es behebt das Problem, kleinere Layoutprobleme nur über Textaufforderungen zu beheben.

MCP-India-Stack: Offline-fähiger Server für indische Finanzdaten in KI-Agenten
MCP-India-Stack ist ein offline-first MCP-Server, der indische Finanz- und Regierungs-API-Funktionalität ohne Authentifizierung oder externe API-Aufrufe bereitstellt. Er bündelt Datensätze lokal für Steuerberechnungen, Validierungstools und Abfragen.