Agent IA local permanent : Leçons d'un développeur sur Mac mini M4

Configuration et Architecture

Un développeur fait fonctionner un agent d'IA auto-hébergé sur un Mac mini M4 depuis plusieurs mois. La configuration utilise un runtime Rust avec qwen2.5:14b sur Ollama pour une inférence locale rapide. Le système implémente une échelle de modèles qui passe à des modèles cloud lorsque les tâches nécessitent plus de capacités. La mémoire est gérée avec SQLite et des embeddings locaux utilisant nomic-embed-text pour un rappel sémantique entre les sessions. L'agent fonctionne 24h/24 et 7j/7 via launchd et exécute diverses tâches, notamment la surveillance d'un bot de trading, la vérification des emails, le déploiement de sites web et la délégation de travaux d'implémentation complexes à Claude Code via un gestionnaire de tâches.

Principaux Enseignements

L'architecture mémoire est primordiale : Le développeur a constaté qu'un rappel hybride combinant une recherche par mots-clés BM25 avec une similarité vectorielle, pondérée et fusionnée, était une avancée décisive. Un modèle 14B avec un bon rappel mémoire surpasse un modèle 70B qui commence chaque conversation à froid.

La taxe du prompt système est bien réelle : Les fichiers d'identité initiaux comptaient environ 10 000 tokens, mais ont été réduits à environ 2 800 tokens en supprimant tout ce que l'agent pouvait consulter à la demande. La règle : si l'agent a besoin de quelque chose occasionnellement, le mettre en mémoire ; s'il en a besoin à chaque message, le mettre dans le prompt système.

Les embeddings locaux ont changé l'économie : L'utilisation de nomic-embed-text sur Ollama aux côtés du modèle de conversation rend chaque opération de stockage et de rappel de mémoire gratuite, éliminant les coûts qui s'accumulaient auparavant avec les requêtes d'embedding d'OpenAI.

L'échelle de modèles compte plus que le modèle par défaut : L'agent utilise par défaut le qwen local pour la conversation (gratuit, rapide) mais peut passer à Minimax, Kimi, Haiku, Sonnet ou Opus selon les exigences de la tâche. L'idée clé : laisser les humains changer de modèle manuellement avec des commandes comme /model sonnet pour les tâches de raisonnement et /model qwen pour discuter, plutôt que d'essayer de détecter automatiquement.

Les limites d'itération des outils nécessitent une marge : Commencer avec 10 appels d'outils maximum par message s'est avéré insuffisant. Les tâches simples consomment 3 à 5 appels d'outils, tandis que les tâches complexes en nécessitent 15 à 20. La configuration actuelle utilise 25 appels d'outils avec une limite de taux de 200 actions/heure comme filet de sécurité.

Le bug le plus difficile concernait la mémoire inter-sessions : Les mémoires stockées explicitement via un outil de stockage n'avaient initialement pas de session_id, et les requêtes de rappel étaient filtrées par le session_id actuel. Cela rendait les faits mémorisés délibérément invisibles dans les sessions futures. La solution a été d'ajouter OR session_id IS NULL à la requête SQL.

📖 Read the full source: r/LocalLLaMA

Leçons pratiques de la construction d'un agent compagnon IA local permanent

Configuration et Architecture

Principaux Enseignements

👀 See Also

Kepler construit une IA vérifiable pour les services financiers avec Claude : 26M+ de documents indexés, réponses prêtes pour l'audit

À l'intérieur de la fonctionnalité à 20 800 $ MRR : 60 prompts en 14 mois sur Claude

Développeur crée le jeu textuel Track Star avec Claude comme partenaire de codage

Utilisateur déploie l'assistant IA 'Elvis' sur un VPS pour des tâches de gestion de projet