로컬 AI 에이전트 구축: M4 Mac mini 실용 교훈 5선

설정 및 아키텍처

한 개발자가 M4 Mac mini에서 자체 호스팅 AI 에이전트를 몇 달간 운영해왔습니다. 이 설정은 빠른 로컬 추론을 위해 Ollama에서 qwen2.5:14b를 사용하는 Rust 런타임을 활용합니다. 시스템은 작업에 더 많은 역량이 필요할 때 클라우드 모델로 확장되는 모델 사다리를 구현합니다. 메모리는 SQLite와 세션 간 의미적 회상을 위한 nomic-embed-text를 사용한 로컬 임베딩으로 처리됩니다. 에이전트는 launchd를 통해 24/7 실행되며, 트레이딩 봇 모니터링, 이메일 확인, 웹사이트 배포, 태스크 러너를 통해 Claude Code에 무거운 구현 작업을 위임하는 등 다양한 작업을 수행합니다.

주요 교훈

메모리 아키텍처가 전부입니다: 개발자는 BM25 키워드 검색과 벡터 유사성을 가중치를 두고 병합한 하이브리드 회상이 돌파구였다는 사실을 발견했습니다. 좋은 메모리 회상을 갖춘 14B 모델은 모든 대화를 처음부터 시작하는 70B 모델보다 성능이 뛰어납니다.

시스템 프롬프트 부담은 현실입니다: 초기 신원 파일은 약 10K 토큰으로 시작했지만, 에이전트가 필요할 때 조회할 수 있는 모든 내용을 제거하여 약 2,800 토큰으로 줄였습니다. 규칙은 다음과 같습니다: 에이전트가 가끔 필요한 것이 있다면 메모리에 넣고, 모든 메시지마다 필요한 것이 있다면 시스템 프롬프트에 넣으세요.

로컬 임베딩이 경제성을 바꿨습니다: 대화 모델과 함께 Ollama에서 nomic-embed-text를 사용하면 모든 메모리 저장 및 회상 작업이 무료가 되어, 이전에 OpenAI 임베딩 요청으로 누적되던 비용을 제거합니다.

기본 모델보다 모델 사다리가 더 중요합니다: 에이전트는 기본적으로 대화를 위해 로컬 qwen을 사용하지만(무료, 빠름), 작업 요구 사항에 따라 Minimax, Kimi, Haiku, Sonnet 또는 Opus로 확장할 수 있습니다. 핵심 통찰: 추론 작업에는 /model sonnet을, 채팅에는 /model qwen과 같은 명령으로 수동으로 모델을 전환하도록 하고, 자동 감지하려고 시도하지 마세요.

도구 반복 제한에는 여유가 필요합니다: 메시지당 최대 10개의 도구 호출로 시작하는 것은 불충분한 것으로 판명되었습니다. 간단한 작업은 3-5개의 도구 호출을 소모하는 반면, 복잡한 작업은 15-20개가 필요합니다. 현재 설정은 안전망으로 시간당 200개 작업 속도 제한과 함께 25개의 도구 호출을 사용합니다.

가장 어려운 버그는 세션 간 메모리였습니다: 저장 도구를 통해 명시적으로 저장된 메모리에는 초기에 session_id가 없었고, 회상 쿼리는 현재 session_id로 필터링되었습니다. 이로 인해 의도적으로 기억된 사실이 향후 세션에서 보이지 않게 되었습니다. 해결책은 SQL 쿼리에 OR session_id IS NULL을 추가하는 것이었습니다.

📖 Read the full source: r/LocalLLaMA

로컬 AI 동반자 에이전트 구축에서 얻은 실용적인 교훈

설정 및 아키텍처

주요 교훈

👀 See Also

오픈클로 사용자, 은행 및 신용카드 명세서 요약 능력 구축

OpenClaw의 다재다능한 응용 분야: Clawdbot 커뮤니티의 통찰

DOM 최적화 및 대시보드 모니터링을 통한 OpenClaw 에이전트 비용 최적화

저렴한 오픈클로우 설정: 월 5달러 헤츠너 VPS + 딥시크 API 1달러 미만