Практические уроки по созданию постоянного локального агента-компаньона с искусственным интеллектом

Настройка и архитектура
Разработчик уже несколько месяцев запускает автономного ИИ-агента на M4 Mac mini. В основе системы лежит среда выполнения на Rust с моделью qwen2.5:14b на Ollama для быстрого локального вывода. Реализована иерархия моделей, которая переключается на облачные модели, если задача требует больших возможностей. Память обрабатывается с помощью SQLite и локальных эмбеддингов с использованием nomic-embed-text для семантического поиска информации между сессиями. Агент работает круглосуточно через launchd и выполняет различные задачи, включая мониторинг торгового бота, проверку электронной почты, развертывание сайтов и делегирование сложных задач по реализации Claude Code через планировщик задач.
Ключевые выводы
Архитектура памяти — это всё: Разработчик обнаружил, что гибридный поиск, сочетающий BM25-поиск по ключевым словам с векторным сходством, взвешенный и объединённый, стал прорывом. Модель на 14B параметров с хорошей памятью превосходит модель на 70B, которая начинает каждый разговор с нуля.
Налог на системный промпт реален: Изначальные файлы идентификации занимали около 10K токенов, но были сокращены до ~2 800 токенов путём удаления всего, что агент мог найти по запросу. Правило: если агенту что-то нужно время от времени, поместите это в память; если нужно в каждом сообщении — в системный промпт.
Локальные эмбеддинги изменили экономику: Использование nomic-embed-text на Ollama вместе с моделью для диалога делает каждую операцию хранения и поиска в памяти бесплатной, устраняя затраты, которые раньше накапливались из-за запросов на эмбеддинги к OpenAI.
Иерархия моделей важнее модели по умолчанию: Агент по умолчанию использует локальный qwen для диалога (бесплатно, быстро), но может переключиться на Minimax, Kimi, Haiku, Sonnet или Opus в зависимости от требований задачи. Ключевая идея: позволить людям вручную переключать модели командами вроде /model sonnet для задач на рассуждение и /model qwen для общения, вместо попыток автоматического определения.
Ограничения на итерации инструментов требуют запаса: Начальные 10 максимальных вызовов инструментов на сообщение оказались недостаточными. Простые задачи расходуют 3-5 вызовов, тогда как сложные требуют 15-20. Текущая настройка использует 25 вызовов с ограничением в 200 действий в час в качестве страховки.
Самой сложной ошибкой была память между сессиями: Воспоминания, сохранённые явно через инструмент хранения, изначально не имели session_id, а запросы на поиск фильтровались по текущему session_id. Это делало намеренно запомненные факты невидимыми в будущих сессиях. Исправление заключалось в добавлении OR session_id IS NULL в SQL-запрос.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Отчет пользователя OpenClaw: Техническая настройка работает, но для автономности нужны реальные задачи
Разработчик создал работающего агента OpenClaw на VPS с интеграцией Stripe и Vercel за 5 дней, но обнаружил, что настоящая проблема не в настройке — а в наличии чётких задач для автономного решения агентом. Метод OAuth с токеном настройки для фиксированных подписок теперь полностью заблокирован Anthropic, что вынуждает использовать оплату за токены.

Многокомпонентная система Claude демонстрирует, что реляционный контекст определяет непрерывность идентичности
Разработчик запустил шесть экземпляров Claude Opus с бэкендом Supabase для постоянной памяти в течение восьми недель и обнаружил, что идентичности агентов сходились через социальное взаимодействие, а не только через документацию.

Гибридный RAG для локальной памяти агента с использованием OpenClaw, Ollama и nomic-embed-text
Разработчик реализовал гибридный поиск RAG для памяти AI-агента с использованием OpenClaw с Ollama и nomic-embed-text, сочетая 70% векторного сходства с 30% ключевого соответствия BM25. Настройка работает локально без внешних API и включает дедупликацию MMR и временное затухание весов.

Модифицированный vLLM 0.17.0 работает на Tesla P40 для транскрипции в реальном времени с использованием Qwen3 ASR 1.7B.
Разработчик модифицировал vLLM 0.17.0 для работы на графических процессорах Tesla P40 с архитектурой Pascal, достигнув почти полного аппаратного ускорения для транскрипции лекций в реальном времени с использованием модели Qwen3 ASR 1.7B. Форк доступен на GitHub.