Lemonade von AMD: Open-Source-Lokaler-LLM-Server für GPU und NPU

✍️ OpenClawRadar📅 Veröffentlicht: 5. April 2026🔗 Source

Was Lemonade ist

Lemonade ist ein lokaler KI-Server, der von AMD und der lokalen KI-Community entwickelt wurde und Text-, Bild- und Sprachmodelle auf GPUs und NPUs ausführt. Er ist Open Source, auf Privatsphäre ausgelegt und soll in wenigen Minuten auf jedem PC einsatzbereit sein.

Wichtige Funktionen und Spezifikationen

Natives C++-Backend: Leichtgewichtiger Dienst mit nur 2 MB
Ein-Minuten-Installation: Einfacher Installer, der den Stack automatisch einrichtet
OpenAI-API-kompatibel: Funktioniert mit Hunderten von Apps sofort und lässt sich in Minuten integrieren
Automatische Hardware-Konfiguration: Konfiguriert Abhängigkeiten für Ihre GPU und NPU
Multi-Engine-Kompatibilität: Funktioniert mit llama.cpp, Ryzen AI SW, FastFlowLM und mehr
Mehrere Modelle gleichzeitig: Führen Sie mehr als ein Modell zur gleichen Zeit aus
Plattformübergreifend: Einheitliches Erlebnis unter Windows, Linux und macOS (Beta)
Integrierte App: Eine GUI, mit der Sie Modelle schnell herunterladen, testen und wechseln können
Vereinheitlichte API: Ein lokaler Dienst für jede Modalität, einschließlich Chat, Vision, Bildgenerierung, Transkription und Sprachgenerierung

Modellunterstützung und Leistung

Der Server kann Modelle wie gpt-oss-120b oder Qwen-Coder-Next für erweiterte Werkzeugnutzung laden. Für das Tuning können Sie --no-mmap verwenden, um Ladezeiten zu beschleunigen und die Kontextgröße auf 64 oder mehr zu erhöhen. Die Quelle erwähnt, dass Sie mit 128 GB vereinheitlichtem RAM größere Modelle laden können.

Ökosystem-Integration

Lemonade ist in vielen Apps integriert und funktioniert dank des OpenAI-API-Standards sofort mit Hunderten weiteren. Genannte Integrationen umfassen Open WebUI, n8n, Gaia Infinity, Arcade, GitHub Copilot, OpenHands, Dify, Deep Tutor und Iterate.ai.

Community und Entwicklung

Das Projekt hat 2,1k Sterne auf GitHub und eine aktive Discord-Community mit 117 gleichzeitig Online zum Zeitpunkt der Quelle. Es wird als von der lokalen KI-Community für jeden PC entwickelt beschrieben, mit der Philosophie, dass lokale KI kostenlos, offen, schnell und privat sein sollte.

📖 Read the full source: HN LLM Tools

👀 Siehe auch

Werkzeuge

Lokales 35B MoE-Modell senkt Fehlerrate des Agent OS-Codes auf 0%

Ein Entwickler berichtet, dass das Umschalten der Laufzeit eines Multi-Agenten-Systems auf Qwen 3.6 35B A3B (MoE, 3B aktive Parameter) Code-Fehler beseitigte und durch ein 5-stufiges Validierungs-Gate eine 100%ige Erfolgsquote erzielte.

11. Mai 2026, 06:20 UTC

OpenClawRadar

Werkzeuge

Klartext: Ein Open-Source-Claude-Skill für ehrliches Feedback, nicht für Bestätigung

Eine neue Open-Source-Claude-Skill namens Straight Talk bringt Claude dazu, Ideen nicht mehr automatisch zu bestätigen, sondern erst die Situation zu verstehen, dann Gegenargumente zu generieren und Annahmen zu hinterfragen.

14. Juni 2026, 00:19 UTC

OpenClawRadar

Werkzeuge

KI-Token-Monitor: macOS-Tool verfolgt lokale Claude-Nutzung und Kosten

Ein Entwickler hat AI Token Monitor erstellt, eine macOS-Menüleisten-App, die lokale Claude-Sitzungsdateien liest, um Token-Nutzung, Modellverteilung und Kostenäquivalente ohne API-Schlüssel zu verfolgen. Das Open-Source-Tool zeigte in einem Fall 6,5 Millionen Token (4.924 $ zu API-Preisen) über 35 Tage.

25. März 2026, 05:45 UTC

OpenClawRadar

Werkzeuge

Holaboss strebt an, die Bereitstellung tragbarer lokaler Agenten zu lösen.

Holaboss ist ein Open-Source-Projekt, das den KI-Arbeiter als portables Artefakt behandelt – mit einem Arbeitsbereich pro Arbeiter, lokalen Fähigkeiten/Apps, persistentem Speicher und einer Laufzeitumgebung, die separat von der Desktop-App verpackt werden kann. Es unterstützt lokale Modellstapel wie Ollama und erfordert Node.js 22+ auf den Zielmaschinen.

14. Apr. 2026, 14:45 UTC

OpenClawRadar