Lemonade AMD : Serveur LLM Open Source pour GPU NPU

Qu'est-ce que Lemonade

Lemonade est un serveur d'IA local développé par AMD et la communauté de l'IA locale qui exécute des modèles de texte, d'image et de parole sur des GPU et NPU. Il est open source, conçu pour être privé et prétend être prêt en quelques minutes sur n'importe quel PC.

Fonctionnalités et spécifications clés

Backend natif en C++ : Service léger de seulement 2 Mo
Installation en une minute : Programme d'installation simple qui configure automatiquement la pile
Compatible avec l'API OpenAI : Fonctionne avec des centaines d'applications prêtes à l'emploi et s'intègre en quelques minutes
Configuration automatique pour votre matériel : Configure les dépendances pour votre GPU et NPU
Compatibilité multi-moteurs : Fonctionne avec llama.cpp, Ryzen AI SW, FastFlowLM, et plus encore
Plusieurs modèles simultanément : Exécutez plus d'un modèle en même temps
Multiplateforme : Une expérience cohérente sur Windows, Linux et macOS (bêta)
Application intégrée : Une interface graphique qui vous permet de télécharger, tester et changer rapidement de modèles
API unifiée : Un service local unique pour chaque modalité incluant le chat, la vision, la génération d'images, la transcription et la génération vocale

Support des modèles et performances

Le serveur peut charger des modèles comme gpt-oss-120b ou Qwen-Coder-Next pour une utilisation avancée d'outils. Pour l'ajustement, vous pouvez utiliser --no-mmap pour accélérer les temps de chargement et augmenter la taille du contexte à 64 ou plus. La source mentionne qu'avec 128 Go de RAM unifiée, vous pouvez charger des modèles plus volumineux.

Intégration à l'écosystème

Lemonade est intégré dans de nombreuses applications et fonctionne prêt à l'emploi avec des centaines d'autres grâce au standard de l'API OpenAI. Les intégrations mentionnées incluent Open WebUI, n8n, Gaia Infinity, Arcade, GitHub Copilot, OpenHands, Dify, Deep Tutor, et Iterate.ai.

Communauté et développement

Le projet compte 2,1k étoiles sur GitHub et une communauté Discord active avec 117 membres en ligne au moment de la source. Il est décrit comme étant construit par la communauté de l'IA locale pour chaque PC, avec la philosophie que l'IA locale devrait être gratuite, ouverte, rapide et privée.

📖 Read the full source: HN LLM Tools