Leçons pratiques de la construction d'un agent compagnon IA local permanent

Configuration et Architecture
Un développeur fait fonctionner un agent d'IA auto-hébergé sur un Mac mini M4 depuis plusieurs mois. La configuration utilise un runtime Rust avec qwen2.5:14b sur Ollama pour une inférence locale rapide. Le système implémente une échelle de modèles qui passe à des modèles cloud lorsque les tâches nécessitent plus de capacités. La mémoire est gérée avec SQLite et des embeddings locaux utilisant nomic-embed-text pour un rappel sémantique entre les sessions. L'agent fonctionne 24h/24 et 7j/7 via launchd et exécute diverses tâches, notamment la surveillance d'un bot de trading, la vérification des emails, le déploiement de sites web et la délégation de travaux d'implémentation complexes à Claude Code via un gestionnaire de tâches.
Principaux Enseignements
L'architecture mémoire est primordiale : Le développeur a constaté qu'un rappel hybride combinant une recherche par mots-clés BM25 avec une similarité vectorielle, pondérée et fusionnée, était une avancée décisive. Un modèle 14B avec un bon rappel mémoire surpasse un modèle 70B qui commence chaque conversation à froid.
La taxe du prompt système est bien réelle : Les fichiers d'identité initiaux comptaient environ 10 000 tokens, mais ont été réduits à environ 2 800 tokens en supprimant tout ce que l'agent pouvait consulter à la demande. La règle : si l'agent a besoin de quelque chose occasionnellement, le mettre en mémoire ; s'il en a besoin à chaque message, le mettre dans le prompt système.
Les embeddings locaux ont changé l'économie : L'utilisation de nomic-embed-text sur Ollama aux côtés du modèle de conversation rend chaque opération de stockage et de rappel de mémoire gratuite, éliminant les coûts qui s'accumulaient auparavant avec les requêtes d'embedding d'OpenAI.
L'échelle de modèles compte plus que le modèle par défaut : L'agent utilise par défaut le qwen local pour la conversation (gratuit, rapide) mais peut passer à Minimax, Kimi, Haiku, Sonnet ou Opus selon les exigences de la tâche. L'idée clé : laisser les humains changer de modèle manuellement avec des commandes comme /model sonnet pour les tâches de raisonnement et /model qwen pour discuter, plutôt que d'essayer de détecter automatiquement.
Les limites d'itération des outils nécessitent une marge : Commencer avec 10 appels d'outils maximum par message s'est avéré insuffisant. Les tâches simples consomment 3 à 5 appels d'outils, tandis que les tâches complexes en nécessitent 15 à 20. La configuration actuelle utilise 25 appels d'outils avec une limite de taux de 200 actions/heure comme filet de sécurité.
Le bug le plus difficile concernait la mémoire inter-sessions : Les mémoires stockées explicitement via un outil de stockage n'avaient initialement pas de session_id, et les requêtes de rappel étaient filtrées par le session_id actuel. Cela rendait les faits mémorisés délibérément invisibles dans les sessions futures. La solution a été d'ajouter OR session_id IS NULL à la requête SQL.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Des non-développeurs créent un jeu de chaîne de mots en un jour grâce à Claude AI.
Un utilisateur sans aucune expérience en programmation a créé un jeu de navigateur complet en une seule session en utilisant Claude AI. Le jeu de chaîne de mots comprend un dictionnaire de 74 000 mots, des effets sonores, des éléments de design et une mascotte.

Étude de cas : Utiliser plusieurs agents d'IA pour construire une bibliothèque C++ de production
Un développeur a documenté un processus de plusieurs mois utilisant quatre agents d'IA (Claude, ChatGPT, Gemini, Grok) avec des rôles distincts pour construire FAT-P, une bibliothèque C++20 uniquement composée d'en-têtes avec 107 fichiers d'en-tête et zéro dépendance externe. Le système incluait une revue croisée, des documents de gouvernance écrits par l'IA, et un suivi des démérites pour encoder les modes d'échec.

Mémoire opérationnelle plutôt qu'automatisation : pourquoi les agents des petites entreprises ont besoin de se souvenir
La véritable valeur des agents IA pour petites entreprises n'est pas l'automatisation — c'est la mémoire opérationnelle. Un livre blanc de McPhersonAI soutient que les agents devraient se comporter comme des opérateurs disciplinés : se souvenir des normes, détecter les écarts, préserver le contexte et faire remonter l'essentiel.

Trois modèles pratiques pour gagner de l'argent avec OpenClaw
L'analyse de 100 utilisateurs d'OpenClaw révèle trois approches constantes : transformer les connaissances existantes en assistants IA, automatiser les recherches répétitives, et vendre des résultats qui font gagner du temps plutôt que des fonctionnalités IA.