Exécution d'agents LLM locaux sur Mac Minis avec interface Telegram

Un développeur sur r/LocalLLaMA a détaillé un système pour exécuter plusieurs agents LLM locaux sur des Mac Minis, entièrement contrôlés via des messages Telegram depuis un téléphone. Cette configuration élimine les coûts d'API et offre une confidentialité totale tout en conservant des fonctionnalités similaires aux services commerciaux comme Claude Code Channels.
Configuration technique
Le système central utilise :
- Modèles locaux via LMStudio : modèles 35B pour les tâches quotidiennes, modèles 235B pour les raisonnements plus lourds
- Claude Code exécuté dans des sessions tmux sur chaque Mac Mini
- Bots Telegram qui font le pont entre les messages utilisateurs et les sessions tmux
- 80 lignes de Python pour l'implémentation du bot Telegram (disponible sur GitHub)
Le flux de travail est simple : envoyer un message texte au bot Telegram, qui le saisit dans la session tmux, surveille la sortie et renvoie la réponse.
Avantages clés
- Coût continu nul : Le matériel est la seule dépense—pas de clés API, de limites de débit ou de restrictions de quota
- Confidentialité totale : Tout reste sur le réseau local (LAN)
- Flexibilité des modèles : Mélangez et associez différents modèles—un agent exécute Gemini CLI, d'autres utilisent LMStudio pointé vers des modèles Ollama
- Pas de verrouillage fournisseur : LMStudio sert l'API Anthropic Messages nativement, donc Claude Code s'y connecte comme s'il parlait aux serveurs d'Anthropic
Implémentation actuelle
Le développeur exécute 5 agents spécialisés, chacun avec son propre bot Telegram :
- Flux d'approbation avec des boutons Telegram intégrés (Approuver/Rejeter/Modifier) pour examiner les ébauches depuis un téléphone
- Mémoire partagée entre agents via synchronisation git
- Génération multimédia (FLUX.1, Wan 2.2) distribuée à une boîte GPU
- Pipeline de podcast avec synthèse vocale clonée, déclenché par un seul message Telegram
Exigences matérielles
- Modèles 35B : Fonctionnent bien sur Mac avec 64 Go+ de RAM ou GPU 24 Go
- Modèles 235B : Nécessitent 128-256 Go de RAM ou plusieurs GPU
- Le développeur recommande de commencer petit et de monter en puissance selon les besoins
Le modèle de pont tmux est agnostique aux modèles—il ne se soucie pas de ce qui s'exécute dans la session, permettant un échange facile des modèles sous-jacents. Un guide complet de construction pour une seule machine/agent est disponible, avec des instructions multi-machines à venir.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Exécuter Claude Code 24/7 en tant qu'Agent en Arrière-plan — 2 Semaines d'Expérience
Un développeur partage sa configuration pour exécuter Claude Code en continu sur un VPS, gérant les revues de code, le refactoring et les déploiements pendant son sommeil.

Leçons pratiques tirées de l'utilisation d'agents d'IA sur une base de code de 100 000 lignes
Un développeur partage six techniques spécifiques apprises lors de l'utilisation de Claude Code et Cursor pour construire une couche API compatible pandas sur chDB, notamment le maintien d'un fichier de règles CLAUDE.md, l'utilisation d'agents sans contexte comme critiques, et la structuration de flux de travail multi-agents avec coordination basée sur le système de fichiers.

Développeur Remplace un Agent IA par un Script Playwright Direct pour l'Automatisation du Navigateur
Un développeur a utilisé OpenClaw pour générer un agent Gemma 4 31B pour l'automatisation de navigateur via Playwright, mais a rencontré des problèmes avec des appels API incorrects et des délais d'attente. Il a remplacé l'agent entier par un script de 50 lignes qui communique directement avec Chrome, accomplissant la tâche en 10 secondes.

Le développeur utilise Claude Code pour transformer le wireframe du graphique de dépenses en une version de qualité production en une seule nuit.
Un développeur créant une application de finances personnelles en solo a utilisé Claude Code pour repenser un graphique de dépenses à travers quatre séries de corrections en une seule session, passant d'une maquette basique à une qualité quasi-production en environ 3 heures.