Создание постоянного ИИ-агента: уроки на M4 Mac mini

Настройка и архитектура

Разработчик уже несколько месяцев запускает автономного ИИ-агента на M4 Mac mini. В основе системы лежит среда выполнения на Rust с моделью qwen2.5:14b на Ollama для быстрого локального вывода. Реализована иерархия моделей, которая переключается на облачные модели, если задача требует больших возможностей. Память обрабатывается с помощью SQLite и локальных эмбеддингов с использованием nomic-embed-text для семантического поиска информации между сессиями. Агент работает круглосуточно через launchd и выполняет различные задачи, включая мониторинг торгового бота, проверку электронной почты, развертывание сайтов и делегирование сложных задач по реализации Claude Code через планировщик задач.

Ключевые выводы

Архитектура памяти — это всё: Разработчик обнаружил, что гибридный поиск, сочетающий BM25-поиск по ключевым словам с векторным сходством, взвешенный и объединённый, стал прорывом. Модель на 14B параметров с хорошей памятью превосходит модель на 70B, которая начинает каждый разговор с нуля.

Налог на системный промпт реален: Изначальные файлы идентификации занимали около 10K токенов, но были сокращены до ~2 800 токенов путём удаления всего, что агент мог найти по запросу. Правило: если агенту что-то нужно время от времени, поместите это в память; если нужно в каждом сообщении — в системный промпт.

Локальные эмбеддинги изменили экономику: Использование nomic-embed-text на Ollama вместе с моделью для диалога делает каждую операцию хранения и поиска в памяти бесплатной, устраняя затраты, которые раньше накапливались из-за запросов на эмбеддинги к OpenAI.

Иерархия моделей важнее модели по умолчанию: Агент по умолчанию использует локальный qwen для диалога (бесплатно, быстро), но может переключиться на Minimax, Kimi, Haiku, Sonnet или Opus в зависимости от требований задачи. Ключевая идея: позволить людям вручную переключать модели командами вроде /model sonnet для задач на рассуждение и /model qwen для общения, вместо попыток автоматического определения.

Ограничения на итерации инструментов требуют запаса: Начальные 10 максимальных вызовов инструментов на сообщение оказались недостаточными. Простые задачи расходуют 3-5 вызовов, тогда как сложные требуют 15-20. Текущая настройка использует 25 вызовов с ограничением в 200 действий в час в качестве страховки.

Самой сложной ошибкой была память между сессиями: Воспоминания, сохранённые явно через инструмент хранения, изначально не имели session_id, а запросы на поиск фильтровались по текущему session_id. Это делало намеренно запомненные факты невидимыми в будущих сессиях. Исправление заключалось в добавлении OR session_id IS NULL в SQL-запрос.

📖 Read the full source: r/LocalLLaMA

Практические уроки по созданию постоянного локального агента-компаньона с искусственным интеллектом

Настройка и архитектура

Ключевые выводы

👀 Смотрите также

Как эффективно использовать Claude Code: опыт разработчика по созданию полноценного SaaS-приложения

Запуск Claude Code в Kubernetes CronJob: Производственный опыт и открытая конфигурация

BinktermPHP: Полноценная платформа для BBS/FidoNet, созданная в основном с помощью Claude

Восстановление удаленных плейлистов Apple Music с помощью Claude Cowork